Big Data stellt die Suche nach Identitätsinformationen vor große Herausforderungen. Da Unternehmen zunehmend online mit ihren Kunden interagieren, sammeln sie in immer rasanterem Tempo Petabytes an Daten über Einzelpersonen. Unternehmen wollen schnell reagieren und die Bedürfnisse ihrer Kunden sogar antizipieren. Das bedeutet, ihre Kunden zunehmend mit digitalen Diensten über Web, Mobilgeräte, Heim, Auto, Wearables und KI-Kanäle zu umgeben. Persönliche Daten aller Art – von leicht identifizierbaren Daten bis hin zu Präferenzen und Standortdaten – werden über Anwendungskontaktpunkte hinweg gesammelt. Dies führt zu einer enormen Verbreitung persönlicher Daten, deren Verfolgung oder Rückverfolgung sich als unmöglich erweist.
Und genau hier liegt das Problem: Unerkannte Daten sind praktisch unbekannt. Unbekannte Daten sind jedoch nicht unsichtbar, sondern nur angreifbar. Um einen Kunden zu kennen, muss ein Unternehmen heute seine Daten kennen. Um die Loyalität eines Kunden zu erhalten, muss ein Unternehmen seine Daten schützen. Man kann jedoch nicht schützen, was man nicht kennt, und deshalb müssen Unternehmen heute mehr denn je ihre Kundendaten kennen. Die Suche nach spezifischen Kundendaten in Big Data kann sich jedoch anfühlen, als würde man versuchen, Walter in einem Meer von Walters zu finden – einer Menge ähnlich aussehender Daten, ohne herauszufinden, wer wer ist und was was ist.
Schwierig heißt nicht unmöglich, und DSGVO bedeutet nicht freiwillig

Es gab eine Zeit in der nicht allzu fernen Vergangenheit, in der die Kenntnis der eigenen Kundendaten für viele Unternehmen eher eine Belastung als ein Vorteil darstellte. Datenbuchhaltung bedeutete Rechenschaftspflicht, und die Aufklärung sensibler Daten konnte Überraschungen ans Licht bringen – Überraschungen, die plötzlich zur Belastung des Unternehmens wurden. Doch die Zeiten haben sich geändert: Datenschutzverletzungen sind heute an der Tagesordnung und erhöhen den Druck auf Unternehmen, Maßnahmen zu ergreifen, um ihre Kundendaten weniger angreifbar zu machen. Im Online-Wettbewerb gewinnt zudem derjenige, der den Kunden am besten kennt. Wissen ist Macht, Datenwissen ist Raketentreibstoff.
Doch selbst wenn Umsatz und Sicherheit für Unternehmen noch immer keine ausreichende Motivation darstellen, ihre Kundendaten zu kennen, erkennen immer mehr Unternehmen die Realität, dass Datenkenntnis gesetzlich vorgeschrieben ist. Weltweit verpflichten neue Datenschutzbestimmungen Unternehmen, zu wissen, welche Daten sie über eine Person besitzen, und die Strafen für Nichtwissen sind hoch. Nirgendwo ist dies ein besseres Beispiel als in Europa, wo das Recht auf Datenschutz wird zunehmend als ein verfassungsmäßiges Recht angesehen und das Recht auf Privatsphäre bedeutet ein Recht auf die eigenen Daten.
Mit der Einführung der EU-Datenschutz-Grundverordnung (DSGVO) sind Unternehmen gesetzlich verpflichtet, Kundendaten auf Anfrage herauszugeben oder zu löschen. Die Strafen für Nichteinhaltung können bis zu 41 Milliarden US-Dollar des weltweiten Umsatzes in der EU und in ausgewählten Ländern sogar 101 Milliarden US-Dollar betragen. Die DSGVO verankert das Konzept, dass Unternehmen lediglich Verwalter von Verbraucher- oder Mitarbeiterdaten sind. Die Daten bleiben Eigentum des Bürgers. Die Nichteinhaltung dieses Standards kann ein Unternehmen schwächen. Datenschutz ist möglicherweise nicht für alle Unternehmen ein Anreiz, ihre Daten zu finden und zu inventarisieren, aber Vorschriften wie die DSGVO sind sicherlich ein motivierender Anreiz für diejenigen, die noch nicht überzeugt sind.
Kennen Sie die Geschichte von der Nadel und dem Heuhaufen?

Die Kenntnis der eigenen Identitätsdaten ist gut fürs Geschäft, für die Sicherheit und für den Datenschutz. In immer mehr Ländern weltweit ist es zudem gesetzlich vorgeschrieben. Doch die Suche nach Identitätsdaten in Big Data ist ohnehin schon schwierig, und die Suche nach einer Identität in Big Data ist noch schwieriger.
Das Auffinden bestimmter Arten personenbezogener Daten (PII) ist keine revolutionäre Aufgabe. Unternehmen sind seit Jahren damit beschäftigt, aus Gründen von Marketing bis Sicherheit bestimmte Arten personenbezogener Daten in ihren Daten zu finden. Nehmen wir das Beispiel eines Personalausweises wie der Sozialversicherungsnummer. Diese Daten sind hochgradig identifizierbar und hochsensibel zugleich. Zudem sind sie in vielen Branchen durch Vorschriften geschützt. Aus diesem Grund haben viele Organisationen bereits damit begonnen, diese Daten zu finden und zu katalogisieren. Die entsprechenden Tools lassen jedoch zu wünschen übrig. Sie können zwar neunstellige Zahlen in Datenbanken finden, aber nicht alle Datenquellen abdecken. In der Regel können sie nicht zwischen ähnlich aussehenden Nummern unterscheiden. Sie bieten keine Transparenz hinsichtlich der Nutzung. Und, was vielleicht am wichtigsten ist: Sie können nicht herausfinden, wem die Daten gehören.
Natürlich bedeutet die Kenntnis der Kundendaten mehr als nur die Kenntnis ihrer Sozialversicherungsnummer. Es geht darum, ihren Namen, ihre Adresse, Präferenzen, Dokumente, ihren Standort, ihre IP-Adresse zu kennen – alles, was über sie oder von ihnen stammt. Das ist eine anspruchsvollere Aufgabe. Es erfordert die Fähigkeit, alle möglichen Daten – manchmal ohne Vorkenntnisse – an allen möglichen Orten zu finden. Es ist, als würde man viele Nadeln im Heuhaufen suchen. Aber selbst das reicht möglicherweise nicht aus, denn um Vorschriften wie die DSGVO zu erfüllen, muss man auch wissen, welche Nadeln aus welcher Packung stammen. Es geht darum, das schwer zu Findende zu finden und es dann nach Person oder „betroffener Person“ zu ordnen.
Atlas wirft die Achseln ab

Die Identitätsfindung in Big Data erfordert die Fähigkeit, Identitätsinformationen zu finden und dann herauszufinden, welche Identitätsinformationen zu welcher Identität gehören. Doch das ist noch nicht alles. Um die Daten Ihrer Kunden wirklich zu kennen, müssen Sie wissen, was sie sind, wo sie sind, wem sie gehören, wohin sie gehen und wo sie waren. Wenn Wissen Macht ist, warum sollten Sie sich dann mit Cola und Natron zufriedengeben, wenn Sie metallischen Wasserstoff haben können?
Neue Tools wie BigID stellen traditionelle Ansätze zur Suche, Inventarisierung und Zuordnung personenbezogener Daten auf den Kopf. Sie verzichten auf strukturierte Suchen, die auf veralteten regulären Ausdrücken basieren. Sie nutzen den Identitätskontext, um Identitätsdaten in großem Umfang zu finden und zu sortieren. BigID basiert auf Big Data, maschinellem Lernen und Identitätsmanagement. Korrelation um herauszufinden, was was ist und wer wer ist. Ziel ist nicht, eine Sozialversicherungsnummer zu finden, sondern alle Sozialversicherungsnummern und zugehörigen Identitätsinformationen in einem Identitätsdiagramm abzubilden. Es geht darum, einen Atlas zu erstellen: Karten, die Standorte, Zugänge, Wohnsitze und Datenflüsse zeigen.
Um Ihre Kunden zu kennen, müssen Sie zunächst ihre Daten kennen. Doch um Waldo in Ihren Daten zu finden, benötigen Sie eine Karte. Tools wie BigID helfen Unternehmen beim Aufbau eines Datenatlas für besseren Kundenservice, mehr Kundensicherheit und mehr Datenschutz.