Analytics

Systemische Sammlung, Analyse, Aufbereitung und Darstellung Ihrer Daten für optimale operative und strategische Entscheidungen.

Advanced Analytics
Mit Hilfe von Advanced Analytics Lösungen gelingt es, entscheidende Verbesserungen in...
Mehr lesen
Predictive Analytics & Maintenance
Predictive Analytics ermöglicht es, mit Hilfe unternehmenseigener Daten zukünftige Trends...
Mehr lesen
Selfservice BI, Adhoc Analysen
Die Anwender der einzelnen Fachabteilungen können jederzeit eigenständig und unabhängig...
Mehr lesen
Machine Learning
Ein System lernt aufgrund eines aus Algorithmen aufgebauten Modells aus bereits erfolgten...
Mehr lesen
Digitalisierung, IoT & Industrie 4.0
Daten werden in sämtlichen Unternehmensprozessen generiert, gesammelt und analysiert....
Mehr lesen
Data Science
Data Science bietet Ihnen die Chance - nicht auf den ersten Blick ersichtliches Wissen -...
Mehr lesen

Development

Umfassende Situationsanalyse, fundierte Beratung, professionelle Umsetzung individueller Softwarelösungen sowie kompetente Unterstützung.

Development
Wir entwickeln für Sie individuelle Lösungen mit projektspezifischen Funktionen.
Mehr lesen
Business Process Management
​​​​​​​Wir führen durch das Business Process Management eine kontinuierliche Verbesserung...
Mehr lesen
SharePoint Entwicklung
Unsere SharePoint EntwicklerInnen, entwickeln und erstellen Konzepte und Lösungen für die...
Mehr lesen
Internet of Things
Das Internet der Dinge (Internet of Things; IOT) beschreibt die zunehmende Vernetzung...
Mehr lesen
Zur Übersicht
Zur Startseite
Schliessen

Aktuelles

Neuigkeiten rund um cubido.
Zur Übersicht

Arbeiten mit Social Media Daten – (unbekannte) Qualität der Daten im Data Science

Im Rahmen der 13. Internationalen Konferenz „Web und Social Media“ (the International AAAI) gab Hr. Jürgen Pfeffer von der technischen Universität München ein interessantes Interview über die Qualität und Verwendbarkeit von Daten. Ich möchte dieses Thema hier aufgreifen und im Rahmen meiner Tätigkeit ein wenig beleuchten. 

Daten bilden immer die Grundlage meiner empirischen Arbeit, so wie auch oft bei wissenschaftlichen Arbeiten des Hrn. Pfeffer. Es ist die Pflicht eines jeden „ordentlichen“ Wissenschaftlers und dementsprechend auch eines Data Scientisten, seine Daten so genau wie möglich zu kennen.

Herr Pfeffer hat nun im Rahmen verschiedenster Studien die Erfahrung gemacht, dass es bei Daten aus Sozialen Medien oder auch aus Google fast unmöglich ist, zu wissen, was man da genau analysiert. Man nimmt zumeist an, dass man menschliches Verhalten misst. Leider ist es aber oft anders, wir messen nur „wie Social Media bzw. das Web die Daten speichert“. 

Wie ist das gemeint? Naja, Google macht (genauso wie Facebook, Twitter und Co.) täglich mehrere 100 Experimente mit den Benutzern, um herauszufinden, wie sich das Verhalten der Benutzer ändert, wenn man Kleinigkeiten bis hin zur Sortierreihenfolge der Ergebnisse ändert. 

D.h. wenn wir dann diese Ergebnisse verwenden, stecken dahinter womöglich genau diese Experimente und nicht das tatsächliche Verhalten der Personen. Hr. Pfeffer nennt dies „Plattform Signale“. In anderen Studien werden diese oft als „Plattform Effekte“ bezeichnet. Das kommt daher, dass dies auch der Fall ist, wenn man bspw. auf Netflix schaut. Netflix hat im Laufe des letzten Jahres die Skala seiner Bewertungen geändert. D.h. was früher 3 Sterne waren, sind plötzlich 5 Sterne. Wir sehen aber nicht die dahinterliegenden Änderungen, sondern nur die „Ergebnisse“ also die Klicks, Views, Mentions und Retweets, usw. 

Das Problem verstärkt sich mit der Länge der Zeitreihen. Aber genau das ist ein Problem, denn oft braucht man längere Zeitreihen, um bei kleinen Stichproben sicherere Ergebnisse zu erzielen. Das bedeutet doppelte Unsicherheit in Folge des Risikos noch mehr Veränderungen in den Daten zu haben.

Für mich zeigt sich ein grundlegendes Problem: Selbst wenn man glaubt, die Daten und den sogenannten „datenerzeugenden Prozess“ zu kennen (im Augenblick), bedeutet das noch lange nicht, dass man wirklich alles darüber weiß. Es braucht immer den kritischen Blick in und auf die Daten und dafür sind wir Data Scientisten da. 

Ein Resultat der Arbeit von Hrn. Pfeffer und seinen Kollegen ist der offene Brief an Facebook, seine „Plattform“ – also, alles was sie tun, Algorithmen, genauso wie Studien – offenzulegen für Wissenschaft und Journalismus: https://knightcolumbia.org/news/more-200-researchers-sign-letter-support.... Ich drücke Herrn Pfeffer und seinen Kollegen die Daumen, damit ihr Ziel zu erreichen.

Blog | Data Science
08. August 2019 von Mario Schnalzenberger

Linksammlung:

www.icwsm.org
 

Werbeagentur Moremedia, Linz