"Big Data führt uns in eine Falle"

Der Mathematiker Gerd Antes hat vor Kurzem im Standard ein Interview gegeben und dabei gewarnt: „Big Data führt uns in eine Falle“. Aber was genau meint er damit und was ist dabei das Problem? Er spricht von „Big Errors“, „Datenrausch“ (wohl in Analogie zum Goldrausch) und „Big Data als Hype“.

Ich finde es hervorragend, dass Hr. Antes mit seinen Aussagen in dieselben Hörner stößt, wie ich so oft in meinen Kundengesprächen: Einfach nur „sammeln“ ohne vorher darüber nachzudenken, generiert kein Wissen. Es ist laut Hrn. Antes sogar „wissenschaftlicher Unfug“.

Wissenschaftlich Arbeiten bedeutet auf Basis einer bestimmten Idee (Hypothese) bestimmte (!) Daten zu sammeln, um die Hypothese zu stützen oder zu verwerfen. Das bedeutet aber, man sollte vorher eine Idee haben, was man am Ende erreichen will. Die Daten können beim Suchen helfen, aber dazu müssen es natürlich die dafür „richtigen“ Daten sein. Bei vielen Daten und vielen Spalten holt einen Data Scientisten nämlich auch schon mal der Fluch der Dimensionen (der 7. Teil von Indiana Data ;-) ) ein. Das bedeutet, wenn man so viele Daten auf Zusammenhänge prüft, wird man durch den statistischen Fehler (Signifikanzniveau α) auf jeden Fall auch Zusammenhänge finden, die aber eigentlich keine sind. Daher gilt für mich immer: Es muss auch eine gute Theorie hinter den postulierten Zusammenhängen geben.

Gerd Antes spricht auch ein Modell an, welches bei Google etwa zwei Jahre lang ganz gut funktioniert hat (Grippe vorhersagen), und danach immer weniger passte. Da ich die genaue Modellierung nicht kenne, ist Kritik hier schwierig. Um diesem Problem bei unseren Kundenprojekten vorzubeugen, arbeiten unsere Modelle dynamisch und erkennen, wenn sie schlechter werden. In so einem Fall werden wir wieder aktiv und prüfen, ob zusätzliche Parameter oder andere Modellformen besser sind. Denn auch die Natur, die Prozesse bzw. die Gesellschaft verändert sich, somit müssen sich unsere Modelle auch ändern.

Es ist immer einiges an Arbeit, ein verlässliches Konzept für den Erwerb von Wissen aus Daten zu generieren. Unser Konzept ist eine agile Data Science. Wir wollen gemeinsam mit unsere Kunden bessere Prozesse entwickeln. Gerd Antes spricht selbst davon, dass dies manchmal quälend viel Arbeit sein kann (medizinische, biometrische Modelle bspw.), jedoch gesteht er ein: „auch hier gibt es Lösungen“. Aber eben nicht mit einem „Fingerschnippen“.

Wichtig finde ich auch seine Kritik an der Qualität der Daten. Eines unserer erklärten Ziele bei Kunden ist die Aufklärung und gemeinsame Erarbeitung eines Data Quality Konzepts. Wir nennen diese Leistungen „Data Consulting“. Es ist wichtig zu wissen, welche Daten in welcher Qualität vorliegen. Dabei ist es oft unerlässlich, den Daten erzeugenden Prozess genau zu kennen. Die Fragen: "Wer hat die Daten wann erzeugt/eingegeben“ und dabei auch nach dem „Warum und wozu?“ zu stellen ist essentiell für den Erfolg eines Projektes.

Ein Beispiel: Wenn Daten kurzfristig für die Wartung von akuten Fehlern erfasst werden und jeder Techniker dies einzeln bei jeder Maschine ändern kann, ist so ein Prozess wichtig und notwendig für die Wartung. Dieser Prozess erzeugt aber miserable Daten für Data Science (nur Fehlerdaten, keine Daten von fehlerfreien Maschinen, etc.). Hr Antes bringt dies mit seiner Aussage auf den Punkt: „Fehler in den Daten, deren Natur nicht klar ist und die keine besondere Aufmerksamkeit bekommen, können sich bei "riesigen" Datenmengen so potenzieren, dass sie zu absurden Ergebnissen führen. Big Data ist gleich Big Errors.“

Ich formuliere es so: Big Data ist eine Chance! Es ist keine Garantie alles richtig zu machen, wenn man Daten sammelt und auswertet. Es braucht immer ein gutes Konzept und die richtige Idee.

Antes relativiert es selbst mit folgender Aussage: „Es bringt dort etwas, wo ich Modelle von hoher Qualität entwickle und diese gezielt mit Daten füttere.“ Und damit gibt er uns im wesentlichen Recht. Gute Data Scientisten arbeiten mit guten Daten (nicht vielen, aber den richtigen) und müssen sich und die Modelle laufend verbessern.

Arbeiten Sie auch schon mit guten Data Scientisten? :)

"Big Data führt uns in eine Falle" - Ein Gegenwort

Weitere Blogbeiträge

Vom Datenprojekt zum Datenprodukt – wie geht das eigentlich?

SQLBits 2022

Upgrade auf SPARK 3.0.x? Was bringt das in der Praxis?

Updates for innovators: Abonnieren Sie unseren Blog

LET‘S CONNECT ON SOCIAL

JOIN OUR NEWSLETTER