Daten sind das Herzstück des modernen digitalen Geschäfts. Sie bestimmen, wie Nutzer mit einem Unternehmen interagieren. Kundeninhalte zu verstehen und zu analysieren ist natürlich kein neues Ziel. Der gesamte Bereich Big Data ist eine Antwort auf die Notwendigkeit, Kundenverhalten besser zu verstehen und vorherzusehen, indem man die digitalen Spuren analysiert, die sie hinterlassen. Die rasante Verbreitung von Anwendungen und digitalen Kontaktpunkten sieht sich jedoch mit einer beispiellosen Datenflut konfrontiert, die die Analyse erschwert und gleichzeitig die Datenschutz und Datenschutz.
Ein Bild sagt mehr als tausend Worte

Man kann seine Kunden nur dann vollständig verstehen, wenn man ihre Daten kennt. Doch Einblick in diffuse und sich ständig verbreitende personenbezogene Daten (PI) zu gewinnen, kann manchmal unmöglich erscheinen. Herkömmliche Ansätze zur Erstellung einer 360°-Kundensicht erforderten den Aufbau komplexer und letztlich unvollständiger Data Warehouses. Jeder neue Data Lake für Kundeninformationen war lediglich eine schwache Kopie der Daten, die er darstellen sollte. Er lieferte nur ein unvollständiges Bild und machte die Navigation durch den See eher wie das Waten durch einen Sumpf.
Moderne Data-Governance-Tools zielen darauf ab, diese Lücke teilweise zu schließen, indem sie Unternehmen ein klareres Bild ihrer Daten geben, wo auch immer diese sich befinden. Sie stoßen jedoch an ihre Grenzen, da sie sich bei der Erkennung und Bewältigung von Datenwucherungen auf unvollständige oder sogar ungenaue Erhebungen stützen. Das menschliche Gedächtnis lässt sich zwar wunderbar in Kunstwerke umsetzen, ist aber kein zuverlässiger Input für wissenschaftliche Erkenntnisse aus Daten. Ein gemaltes Bild wird niemals den objektiven Realismus eines Fotos bieten, und selbst die aussagekräftigsten Worte können die Realität der von Organisationen erfassten und verarbeiteten Kundendaten niemals präzise visualisieren.
Von Datenseen und Datensümpfen

Die Datenmenge, die Unternehmen heute über ihre Kunden sammeln, ist enorm und wächst stetig. Identitätsdaten verfügen über einzigartige Eigenschaften, die ihre Visualisierung ermöglichen, ohne dass ein weiterer Datensee – oder, je nach Perspektive, ein Datensumpf – erforderlich wäre. Als die Google-Gründer erstmals versuchten, die Navigation in etwas so Großem wie dem Internet zu vereinfachen, bestand ihr Ziel nicht darin, ein besser durchsuchbares Abbild zu erstellen. Stattdessen konzentrierten sie sich auf die Entwicklung eines intelligenten Index, der die weitläufigen Beziehungen zwischen den Hyperlink-Verweisen abbildet, die das World Wide Web der Internetadressen definieren.
Als Facebook auf den Plan trat, erkannte man, dass das Geheimnis, um die Herausforderungen hinsichtlich Leistung, Umfang und Kontext bei der Abbildung von Milliarden miteinander verflochtener menschlicher Beziehungen zu bewältigen, in der Weiterentwicklung des Konzepts eines sozialen Graphen lag, der Inhalt und Kontext der Interaktionen auf der Plattform darstellte. Sicherlich haben Datenspeicher, Warehouses und Seen nach wie vor ihre Berechtigung bei der Aggregation und Analyse von Daten, aber die Essenz der Visualisierung sozialer Beziehungen war der soziale Graph, genau wie Googles PageRank-Index zur Navigation durch das scheinbare Chaos des Internets diente.
Die Erfahrungen von Google und Facebook werfen die Frage auf, warum die Abbildung des wichtigsten Vermögenswerts eines Unternehmens – seiner Kundendaten – anders erfolgen sollte. Genau wie das Internet und der soziale Graph sind personenbezogene Daten in Organisationen und Unternehmen durch Beziehungen verknüpft: Daten gehören einer bestimmten Person, werden in einem bestimmten Land gespeichert, werden von einer gemeinsamen Anwendung abgerufen usw. Herkömmliche Tools zur PI-Erkennung übersehen all diese Nuancen, da sie versuchen, einfach alles zu finden, was einer Sozialversicherungsnummer oder einer Kreditkarte ähnelt. Der Beziehungskontext ist jedoch unerlässlich, um PI zu verstehen, zu schützen und die Einhaltung des Datenschutzes im Zeitalter von Vorschriften wie der DSGVO zu gewährleisten, die eine vollständige Kenntnis der persönlichen Daten einer Person erfordern.
Bewusst sein durch Anwesenheit

Um Kundendaten zu verstehen, ist eine effektive Methode erforderlich, um deren Verteilung, Bewegung und Vernetzung visuell abzubilden. Präsenz bedeutet, „bewusst“ zu sein. Dies ist für die Datenverwaltung von entscheidender Bedeutung. Besonders wichtig ist dies jedoch bei der Einhaltung von Datenschutz und Privatsphäre.
Frühere Bemühungen zum Datenschutz waren erfolglos, da sie ohne Kontext auskamen und oft zu inakzeptablen Fehlern führten. Um Datenrisiken zu erkennen, ist ein Datenkontext erforderlich, der mehr Informationen umfasst als nur die Frage, ob eine Zahl 16-stellig ist. Zudem ist die Fähigkeit erforderlich, die Daten so zu anonymisieren, dass der analytische Wert für das Unternehmen erhalten bleibt und gleichzeitig die Privatsphäre der Person geschützt ist, der die Daten gehören.
Ebenso schreiben moderne Datenschutzbestimmungen wie die EU-DSGVO eine ganze Reihe von Schutzmaßnahmen vor, die allein mit einem Data-Warehouse-Ansatz oder durch die Verwendung eines auf regulären Ausdrücken basierenden Tools aus der PCI-Ära für Entdecken vertraulicher Informationen. Es erfordert Kontextinformationen zu Daten wie Wohnsitz, Verwendungszweck, Aufbewahrungspflichten, Einwilligung, Herkunft und natürlich der Zugehörigkeit zu einer bestimmten Person. Ohne diese Fähigkeit, Kontext und Zusammenhänge zu verstehen und zu visualisieren, ist es unmöglich, die Anforderungen an Einwilligung, Aufbewahrung oder das Recht auf Vergessenwerden zu erfüllen.
Wenn Unternehmen versuchen, Identitätsdaten in Hunderten von Petabyte zu verstehen, geraten traditionelle Ansätze zur Erkennung und Visualisierung ins Wanken. Lösungen wie BigID zielen darauf ab, die Erkennung und Visualisierung großer Identitätsdaten zu überdenken, ohne die Komplexität von Datenverwaltung oder Sicherheit zu erhöhen.