Arbeiten mit Social Media Daten – (unbekannte) Qualität der Daten im Data Science

Mario Schnalzenberger
Donnerstag, 08. August 2019

Im Rahmen der 13. Internationalen Konferenz „Web und Social Media“ (the International AAAI) gab Hr. Jürgen Pfeffer von der technischen Universität München ein interessantes Interview über die Qualität und Verwendbarkeit von Daten. Ich möchte dieses Thema hier aufgreifen und im Rahmen meiner Tätigkeit ein wenig beleuchten. 

Daten bilden immer die Grundlage meiner empirischen Arbeit, so wie auch oft bei wissenschaftlichen Arbeiten des Hrn. Pfeffer. Es ist die Pflicht eines jeden „ordentlichen“ Wissenschaftlers und dementsprechend auch eines Data Scientisten, seine Daten so genau wie möglich zu kennen.

Herr Pfeffer hat nun im Rahmen verschiedenster Studien die Erfahrung gemacht, dass es bei Daten aus Sozialen Medien oder auch aus Google fast unmöglich ist, zu wissen, was man da genau analysiert. Man nimmt zumeist an, dass man menschliches Verhalten misst. Leider ist es aber oft anders, wir messen nur „wie Social Media bzw. das Web die Daten speichert“.

Wie ist das gemeint? Naja, Google macht (genauso wie Facebook, Twitter und Co.) täglich mehrere 100 Experimente mit den Benutzern, um herauszufinden, wie sich das Verhalten der Benutzer ändert, wenn man Kleinigkeiten bis hin zur Sortierreihenfolge der Ergebnisse ändert.

D.h. wenn wir dann diese Ergebnisse verwenden, stecken dahinter womöglich genau diese Experimente und nicht das tatsächliche Verhalten der Personen. Hr. Pfeffer nennt dies „Plattform Signale“. In anderen Studien werden diese oft als „Plattform Effekte“ bezeichnet. Das kommt daher, dass dies auch der Fall ist, wenn man bspw. auf Netflix schaut. Netflix hat im Laufe des letzten Jahres die Skala seiner Bewertungen geändert. D.h. was früher 3 Sterne waren, sind plötzlich 5 Sterne. Wir sehen aber nicht die dahinterliegenden Änderungen, sondern nur die „Ergebnisse“ also die Klicks, Views, Mentions und Retweets, usw.

Das Problem verstärkt sich mit der Länge der Zeitreihen. Aber genau das ist ein Problem, denn oft braucht man längere Zeitreihen, um bei kleinen Stichproben sicherere Ergebnisse zu erzielen. Das bedeutet doppelte Unsicherheit in Folge des Risikos noch mehr Veränderungen in den Daten zu haben.

Für mich zeigt sich ein grundlegendes Problem: Selbst wenn man glaubt, die Daten und den sogenannten „datenerzeugenden Prozess“ zu kennen (im Augenblick), bedeutet das noch lange nicht, dass man wirklich alles darüber weiß. Es braucht immer den kritischen Blick in und auf die Daten und dafür sind wir Data Scientisten da.

Ein Resultat der Arbeit von Hrn. Pfeffer und seinen Kollegen ist der offene Brief an Facebook, seine „Plattform“ – also, alles was sie tun, Algorithmen, genauso wie Studien – offenzulegen für Wissenschaft und Journalismus: https://knightcolumbia.org/news/more-200-researchers-sign-letter-support.... Ich drücke Herrn Pfeffer und seinen Kollegen die Daumen, damit sie ihr Ziel erreichen.

Weitere Blogbeiträge

zum Thema Data Science

Updates for innovators: Abonnieren Sie unseren Blog