Was passiert wenn man 100.000 700.000 Spiegel Online-Artikel „gevorratsdatenspeichert“? Man gewinnt interessante Erkenntnisse, die wahrscheinlich die Meisten von uns nicht einmal erahnt hätten! Seine Ergebnisse durch das SpiegelMining hat David Kriesel auf dem 33C3 vorgestellt. David ist übrigens Data Scientist aus Bonn, der bereits 2014 den berühtmen Xerox Bug entdeckt und auf dem 31C3 präsentiert hat. Beim Barcamp Bonn hatte er ebenfalls über seine Scan-Bug-Entdeckung eine Session gehalten. David hat nicht nur gute Ideen, wie er Wissen aus den Daten, die er sammelt, ziehen kann, sondern kann dies auch sehr unterhaltsam und anschaulich präsentieren. Das schafft er nicht nur durch ein lockeres und souveränes Vortragen sondern auch durch seine selbst gestalteten Memes die seine Folien spicken.
Schneller Daten sammeln als die Spiegel Online Redakteure ändern können
Sehr schön für die Auswertung der Daten ist, dass Davids Crawler binnen minuten Spiegel Online abgreift und die Artikel speichert. Somit erhält er die Artikel in der Form, wie sie veröffentlicht wurden und wer öfters bei der vierten Gewalt liest weiß, dass sich dies mehrmals ändern kann. Leider werden die Änderungen häufig intransparent ohne Hinweis darauf vorgenommen, was die Auswertung von David umso spannender macht.
Veröffentlichungsrhytmus und Textlänge
Spiegel Online veröffentlicht laut Davids Ergebnissen 700 Artikel in der Woche und damit 100 am Tag. Dabei variieren die einzelnen Ressorts in Ihrem Veröffentlichungsrhytmus während Politik und – das hätte ich nicht gedacht – Panorama konstant bedient werden. Die Kulturartikel sind im Durchschnitt die Längsten und werden meist gegen 5 Uhr in der Woche veröffentlicht. Am Wochenende erscheinen die längeren Artikel zwischen 7 und 9 Uhr. Politik, Panorama und Sport haben von allen Ressorts weniger Wörter pro Artikel, wahrscheinlich um im Konkurrenzkampf im Internet Reichweite zu behalten und aufzubauen. Kürzere Artikel werden häufiger gelesen als die meterlangen Kulturschmankerl.
Politik und hier vor allem die Themenkategorie Ausland dominieren übrigens Spiegel Online während bspw. Wissenschaft als Ressort völlig untergeht. Die „Landkarte“ zu den einzelnen Ressorts sowie die Erklärung zu den Graphen gibt es hier bei David zum nachlesen.
Jetzt wird’s „knusprig“: personenbezogene Daten
Wie auch beim verräterischen Handy lässt sich anhand der Metadaten der Artikel von Spiegel Online Rückschlüssel darauf ziehen, welcher Journalist wann Urlaub macht und eventuell mit welchem Kollegen, gepaart mit der Informationen, wie oft diese zusammen Artikel verfasst haben.
Die Teamstruktur und Zusammenarbeit der Ressorts lässt sich durch die Metadaten ablesen. Internas liegen quasi offen, man muss sie nur interpretieren (können). David möchte hierbei übrigens sensibilisieren und warnt, dass nicht Ihr entscheidet, was Ihr an Daten veröffentlicht, sondern der „Gegner“.
Anhand der Metadaten lassen sich bereits viele Informationen sammeln: Wer die besten Freunde sind, ob Du eine Affäre hast, schwanger oder krank seid sowie welche sexuelle Orientierung Ihr habt, politische Einstellung oder finanzielle Probleme. Ein Thema, dass als Big Data für den Otto-Normal-Verbraucher in Zukunft immer interessanter wird, wenn anhand des Facebook-Profils die Eignung für einen Job oder die Kreditwürdigkeit festgestellt wird.
Erkenntnis über die Egos der Spiegel-Online Redakteure: Bei den langen Artikeln wird der Name der Autoren ausgeschrieben während bei kürzeren meist nur der Kürzel ist. Schon klar, dass die in den Suchmaschinen mit ihren Meisterwerken glänzen wollen statt dem hundertsten Bericht über die Tagesthemen.
Wegen Big Data wurde Donald Trump Präsident
Interessant ist Davids Sichtweise bezüglich Big Data: In den sozialen Medien ist der Artikel „Ich habe nur gezeigt, dass es die Bombe gibt“ wie eine Rakete durch die Decke gegangen, weil sie mit einer guten Kombi gemischt ist: Neue Technologie und Manipulation von Massen. Die Datenanylse soll die Wähler fein gegliedert und dementsprechend die Wahlwerbung individualisiert sogar in deren „Ton“ angesprochen haben. Beim Brexit soll dies ebenfalls der Fall gewesen sein. „Da glüht der Aluhut„, um es mit Davids Worten zu sagen.
Aber Data Science Techniken steuern die Leute nicht, es ist immer noch der freie Wille des Einzelnen der dies tut. (Anmerkung von David: „Sowas kann die Wahlen sehr wohl verändern. „) Zudem pumpen wir selbst Facebook voll mit den Daten, die diese Analyse ermöglichen. Ich persönlich habe kein Problem damit, dass dies so analysiert wird. Man sollte wie bei allem immer noch seinen gesunden Menschenverstand nutzen und hinterfragen, was einem vor die Nase gesetzt wird.
Die Technik dahinter: PyDataStack
Wer übrigens selbst mit dem Gedanken spielt Daten wütend zu sammeln und etwas Linux-Kentnisse besitzt oder bereit ist sich anzueignen, findet mit dem PyDataStack die richtigen Tools, um dies zu tun.
Fazit
David hat da mal wieder einen richtig coolen Vortrag auf dem 33C3 hingelegt. Wer übrigens seinen Vortrag vom 31C3 noch nicht kennt, sollte dies in dem Zug gleich nachholen. Die Vortragsfollien zum schnellen durchklicken von SpiegelMining findet Ihr hier in Davids ihm seinem Blogbeitrag dazu. Falls Ihr übrigens kreative Ideen habt, wie David seine Daten noch auswerten könnte, schreibt Ihm einfach eine Mail an mail [at] dkriesel [punkt] com oder kommentiert in seinem Blog. Vielen Dank an dieser Stelle für die freundliche Genehmigung seine Grafik als Aufmacher zu nutzen. Mich würde interessieren, welchen Aspekt Ihr am interessantesten fandet: Schreibt es hier eins weiter in die Kommentare! ;-)
Zeige Kommentare (2)
Toller Vortrag. Habe ihn vor paar Tagen angesehen. Seine Vorträge sind echt gut. Auch zum Scanner vor paar Jahren war sehr interessant. Ich habe ihn angeschrieben und um eine Auswertung bestimmter Daten gebeten. Leider hat er abgelehnt. Schade.
Grüße.
" Man sollte wie bei allem immer noch seinen gesunden Menschenverstand nutzen und hinterfragen, was einem vor die Nase gesetzt wird."
Genau da liegt aber das Problem: "Selbständiges Denken" ist eine Fähigkeit, die man lernen kann - die den meisten aber nirgends beigebracht wird. Das fängt schon bei den Eltern an, die ihren Kindern - auch Kleinkindern (!) - einen eigenen Willen und eigene Entscheidungen zugestehen müssen. Dazu gehört auch, dass man es aushält, dass Kinder eben auch Fehler machen und negative Erfahrungen sammeln. Diese sind aber immens wichtig, um daraus zu lernen und daran zu wachsen. In Wahrheit wird Kindern heute aber jedwede Entscheidungsfähigkeit und Erfahrungs-Spielraum genommen, weil Eltern für ihre Kinder "vordenken" und stets glauben, sie wüssten besser, ob oder wann das Kind müde ist, Hunger hat, auf's Klo muss oder friert. Ja, selbständiges Denken scheitert heute schon an der Frage, ob oder welche Jacke ein Kind anziehen möchte. Kinder, die nie gelernt haben, selbst zu entscheiden und selbst zu denken, die werden das auch als Erwachsene nicht können.
Ähnliches ist auch an sämtlichen Schulen zu beobachten, in denen bis heute vorgefertigtes Wissen wie "Fastfood" serviert wird, ohne den Schülern die Chance zu geben, sich ihr Wissen selbst zu erarbeiten. Und damit haben wir dann genau DIE Generation heutiger junger Menschen, die wie Lemminge alle das gleiche denken, posten und konsumieren. Und nur GLAUBEN, sie würden selber denken.
Big Data wäre eine wunderbare Chance und Bereicherung, wenn wir kommenden Generation tatsächlich (und flächendeckend) selbständiges Denken beibringen würden. De facto aber wird das vermutlich nie eintreffen, weil es viel bequemer ist, eine große Einheits-Herde zu dirigieren und zu manipulieren als sich mit dem unbequemen freien Willen des Individuums auseinanderzusetzen. Und DAS wiederrum macht Big Data zur größten Bedrohung für unsere Gesellschaft.