Mister Big Data. Warum er gar nicht mal so groß ist und warum es auf die Technik ankommt

von Henning Neu

„Big Data“ ist heutzutage fast schon so ein inflationär genutzter Begriff wie „Hack“ oder „Künstliche Intelligenz“. Dabei handelt es sich bei allem nur um ein kompliziertes Computerprogramm. Wiki sagt: „Der aus dem englischen Sprachraum stammende Begriff Big Data bezeichnet Datenmengen, welche zu groß, zu komplex, zu schnelllebig oder zu schwach strukturiert sind, um sie mit manuellen und herkömmlichen Methoden der Datenverarbeitung auszuwerten.“ Und nach persönlicher Erfahrung steht Big Data landläufig auch für die damit verbundenen Methoden der Datenverarbeitung, also Software zur Analyse von großen Datenmengen.

Doch gerade im alltäglichen Gebrauch wissen viele Menschen nicht, womit sie es zu tun haben, wenn sie sich bei Facebook einloggen, oder mit Alexa den nächsten Einkauf bequatschen. Daher schauen wir uns doch mal an, wie Big Data funktioniert und wie wir als Gesellschaft mit der Technologie umgehen könnten.

Das erste Mal Big

Bevor wir uns eine Technologie angucken können, brauchen wir ein bestimmtes Ziel, denn ohne Ziel gibt es keine Notwendigkeit. Nehmen wir also zum Spaß an, wir würden gerne ein Programm schreiben, mit dem wir vorhersagen können, was sich die Bessy, 41-jährige, zweifache Mutti aus Affenhausen – ja, das ist ein echter Ort – als nächstes bei Amazon kaufen möchte. Zu langweilig? Keine Sorge, das lässt sich auf jeden beliebigen Weltherrschaftsplan übertragen.

Um so ein Programm zu schreiben, brauchen wir erst einmal Daten. Viele Daten. Und zwar so viele Daten, dass sich jeder Statistikstudent nass machen würde. In unserem Fall bekommen wir die Daten sogar direkt von Amazon selbst. Sofern wir nicht hypothetisch bei einem Multimilliarden Dollar schweren Unternehmen angestellt wären, so ließen sich solche Datensätze aber auch super einkaufen. Heutzutage gibt es genügend Unternehmen, die mit Nutzerdaten aus allen Bereichen handeln.

Wir haben also unsere Daten, entweder selbst erhoben und eingekauft. Zweiteres hat in der Regel noch die Folge, dass wir die Daten erst einmal in ein für uns brauchbares Format umwandeln müssen, aber das sind auch nur ein paar Programmierhandgriffe vom Praktikanten. Dafür werden alle Daten in so genannte Merkmalsvektoren umgewandelt. Das ist eine logische, einheitliche Struktur, mit der wir zum Beispiel beschreiben können, wie unsere Hypothesen-Bessy ihre Einkäufe bei Amazon bewertet hat. Gab es für den „Fifty Shades of Grey“-Film fünf von fünf Sternen, wird für den Film einfach eine Fünf in ihrem Vektor notiert. Nach diesem Prinzip werden sämtliche eingekauften Gegenstände mit ihr verbunden, auch die, die sie nicht bewertet hat, und sogar die, die sie nicht einmal gekauft, sondern nur kurz angeschaut hat. Nach der ganzen Zuordnerei haben wir einen aufbereiteten Datensatz, der von uns verarbeitet werden möchte.

Wir fangen also an und wollen wissen, welche Personen „Fifty Shades of Grey“ ebenso mit fünf Sternen bewertet haben. Diese Untermenge können wir aber noch weiter unterteilen, und zwar möchten wir einfach mal wissen, welche anderen Filme auch von allen Personen aus der Menge mit fünf Sternen bewertet wurden. Diese Liste von Filmen kann schon eine Menge aussagen, zum Beispiel welche Filme gerne von „Personen ohne Geschmack“ geschaut werden. Praktisch betrachtet ist das auch schon das ganze Geheimnis von Big Data. Mit einem theoretisch unendlich großen Datenpool können wir beliebige Gemeinsamkeiten herausfinden und daraus unsere Schlüsse ziehen. Doch das scheint irgendwie zu einfach, oder?

Big allein reicht nicht, die Technik macht‘s

Natürlich war das jetzt ein sehr simpler Quickie in der Welt der automatisierten Datenverarbeitung. Solche Kleinigkeiten ließen sich sogar teilweise noch per Hand erledigen, wenn die Datenmenge nicht all zu groß ist. Doch mit etwas Hirnschmalz kriegen wir noch mehr hin. Wir wollen als Amazon unsere Kunden besser kennen, als sie sich selbst. Wir wollen ihre Bedürfnisse herausfinden, ihre Leidenschaft zu Schweizer Taschenmessern mit über 100 Funktionen und ihren Hass auf brachialdurchfallerregende, zuckerfreie Gummibärchen. Wir wollen die Zukunft unserer Kunden herausfinden, und zwar noch bevor sie das selbst tun, damit wir sie ihnen einfach gleich zeigen können, braun verpackt ins Haus geliefert.

Und dabei können uns die Unmengen an Daten helfen. Wir verallgemeinern unsere Gruppierung von vorhin und schreiben uns ein Computerprogramm, das von selbst Gemeinsamkeiten finden soll. Das Zauberwort hierbei heißt Mustererkennung. Wir sagen dem Computer einfach, dass er jedes mal eine neue Gruppe erzeugen soll, wenn er zum Beispiel bei mindestens 100 Personen eine Gemeinsamkeit feststellt. Und alle weiteren Personen mit dieser nicht näher benannten Eigenschaft werden auch dieser Gruppe zugeordnet. Wenn man das mit dem heutigen Datensatz von Amazon von Grund auf machen wollen würde, müssten die zuständigen Rechner vermutlich ein paar Monate lang durchackern, daher machen die das schon sehr lang und möglichst live mit einem minimalen Aufwand für alle neuen Daten.

Aus diesem Verfahren entspringt dann ein ganz neuer Datensatz, und zwar ein riesiges Netz aus Mustern, Gemeinsamkeiten zwischen Personen, zusammengefasst in tausende Submengen. Jeder Einkäufer gehört hier vielen verschiedenen Gruppen an. Es könnte sogar Gruppen geben für anonyme Personen, die nicht bei Amazon angemeldet sind und die Seite nur im Vorbeisurfen kurz besucht haben.

Und dieses Netz lässt sich nun auf noch weitere Muster absuchen, jetzt jedoch mit einem bestimmten Plan. Wir wollen Kaufvorschläge generieren, die perfekt auf die Kunden zugeschnitten sind. Dafür schauen wir uns unsere Untergruppen von Kunden an und stellen zum Beispiel fest, dass ein enorm hoher Anteil der Personen, die auf Fantasy abfahren, auch auf Science Fiction stehen. Dann suchen wir nach speziellen Gemeinsamkeiten, zum Beispiel welche Fantasy- und Science-Fiction-Werke von denselben Personen gekauft werden, wie lang die Käufe der unterschiedlichen Werke zeitlich auseinanderstehen, aus welchen Regionen der Welt die Käufer kommen, wie viel Geld sie pro Artikel im Schnitt und insgesamt ausgeben, bis hin zum Suchverhalten auf Amazon selbst, also wie schnell sie sich zum Beispiel für einen bestimmten Artikel entscheiden und ob sie sich dafür Rezensionen angucken.

Der Höhepunkt der Technologie

Was wir jetzt also haben, sind nicht einfach nur irgendwelche Gruppen mit bloßen Gemeinsamkeiten. Wir haben ein persönliches Profil erstellt. Ein Profil, das uns Rückschlüsse auf das Kaufverhalten von mehreren Millionen Menschen liefert. Wenn wir also unsere 41-jährige, zweifache Mutter analysieren, können wir nicht nur sagen, welche Produkte sie gern mag, sondern wir können mit unseren Daten sogar relativ präzise Aussagen über sie als Person machen. Ihr Kaufverhalten liefert unserem System alles Nötige, um zum Beispiel ihre Einkommensverhältnisse zu bestimmen. Falls sie auch ihren Haushalt bei Amazon bestellt, könnten wir sogar ganz einfach herausfinden, ob sie zum Beispiel eine neue Diät begonnen hat oder vielleicht ein weiteres Kind erwartet. Das mag etwas sehr hoch gegriffen sein, aber im Endeffekt sind es simple statistische Auswertungen. Mit welcher Wahrscheinlichkeit wird ein Produkt von einer bestimmten Person gekauft. Und je umfangreicher mein Datenpool ist und je besser meine Auswertungsmethoden sind,desto genauer kann ich meine Aussagen treffen. Ich sage also die Zukunft von Personen vorher, weil ich die Vergangenheit von allen anderen Personen kenne. Das ist Big Data.

Aber immer schön geschützt

Wir wissen nun, dass Big Data in der Theorie eine recht simple Angelegenheit ist, denn prinzipiell handelt es sich bei der großen, automatisierten Datenverarbeitung um keine wirklich neue Errungenschaft der Menschheit. Es ist vielmehr eine Weiterentwicklung der bereits Jahrzehnte alten statistischen Auswertung, wie sie zum Beispiel von Marktforschungsunternehmen durchgeführt wurde. Der einzige Unterschied ist, dass die Analysen von Rechenzentren durchgeführt werden, die größtenteils autonom arbeiten.

Praktisch jedes große Unternehmen, das irgendwie auf Individualisierung setzt, setzt auch irgendwie auf Big Data, um einen besseren Kontakt zu seinen Kunden aufzubauen. Doch auch außerhalb der Konsumbranche wächst Big Data stetig. Ganz gleich, ob es Strafverfolgungsbehörden sind, die probieren, Verbrechen vorherzusagen, oder Köche, die probieren, neue Geschmackskombinationen berechnen zu lassen. Big Data ist da und kann helfen.

Doch das Potential zur Hilfe birgt auch Risiken. Vom Offensichtlichen mal abgesehen, dass wir gerade in Bereichen der smarten Assistenten wie Alexa einem fremden Unternehmen gestatten von uns ein digitales Abbild zu erzeugen, indem wir rund um die Uhr ein bisschen überwacht werden, so sollten wir uns auch klar sein, dass die Technologie alles andere als perfekt ist. Das ist nun mal das grundlegende Problem in der Statistik. Wir können auf Basis von Wahrscheinlichkeiten Aussagen treffen, aber es gibt auch immer die Möglichkeit, dass die getroffene Aussage falsch ist. Entweder weil zu wenige Daten vorhanden sind, oder weil das gesamte Modell fehlerhaft ist. Und gerade deswegen sollten wir uns nicht blind der Technologie anvertrauen.

Big Data ist ein Werkzeug, das uns in vielen Bereichen unseres Lebens helfen kann. Doch gerade beim Umgang mit enormen Datenmassen stehen wir als Nutzer in der Verantwortung, die Technologie immer wieder zu hinterfragen, denn groß ist nicht immer gut.