Zum Inhalt springen
Alle Beiträge anzeigen

Korrelation vs. Klassifizierung: Datenermittlung im Zeitalter der DSGVO neu denken

Mit dem Beginn des Datenschutzzeitalters und der drohenden Datenschutz-GrundverordnungUnternehmen beginnen zu erkennen, dass sie sich auf Klassifizierung zur Datenermittlung ist an seine Grenzen gestoßen. Die DSGVO und der Datenschutz im weiteren Sinne sind wessen Daten, die Sie haben, nicht nur Was Daten, die Sie haben. Datenschutz konzentriert sich auf die Identität; es geht um Menschen. Klassifizierungsbasierte Discovery-Tools haben keinen Identitätskontext und können daher kritische Datenschutzherausforderungen wie Rechte der betroffenen Personoder das Auffinden personenbezogener Daten (PI) jenseits traditioneller PII-Kategorien. Um den Datenschutzherausforderungen des Jahres 2018 gerecht zu werden, ist es nicht sinnvoll, sich auf Technologien aus der PCI-Ära zu verlassen, die für die Erkennung hochstrukturierter Datenmuster entwickelt wurden. Neue Probleme erfordern neue Ansätze, und datenschutzorientierte Datenerhebung erfordert identitätsorientierte Korrelation.

Vom Inhalt zum Kontext

 

Klassifizierungszentriert Datenermittlung Diese Erkennungstools wurden vor Jahrzehnten entwickelt, um Unternehmen bei der Kategorisierung von Daten nach Typ zu unterstützen und die damals neu entstehenden Compliance-Anforderungen wie PCI und HIPAA zu erfüllen. Diese klassifizierungsorientierten Erkennungstools nutzen Mustererkennung zur Datenkategorisierung. Die Klassifizierung basiert stets auf Variationen regulärer Ausdrücke, um ähnlich strukturierte Daten in Kategorien zu finden. Die meisten modernen Sicherheitstools mit Erkennungskomponenten (wie DLP, DRM und DAM) basieren auf diesem Mustererkennungsmechanismus.

Die traditionelle Klassifizierung weist jedoch inhärente Schwächen auf, die bei Datenschutzfällen wie der DSGVO noch deutlicher hervortreten. Erstens mangelt es klassifizierungsbasierten Ansätzen an Genauigkeit. Bei gut strukturierten Daten wie Zahlungskarteninformationen können klassifizierungsbasierte Tools zwar gut funktionieren, sie können jedoch nicht zwischen verschiedenen Datentypen mit ähnlichem Erscheinungsbild unterscheiden. (In den USA beispielsweise sind Sozialversicherungsnummern und ZIP+4-Postleitzahlen jeweils 9-stellig, und es ist nicht unüblich, beide ohne Trennzeichen wie Bindestriche zu speichern.) Die Klassifizierung wird in Fällen, in denen Datentypen weniger eindeutige Unterscheidungsmerkmale aufweisen oder keinen klar definierten Mustern folgen, weitaus ungenauer.

Darüber hinaus können klassifizierungsbasierte Tools nicht unterscheiden, was persönlich ist und was nicht. Europa definiert „persönlich“ sehr weit. Einfach ausgedrückt: Daten sind persönlich, wenn sie im Kontext einer bestimmten Person auftreten. Musterabgleich allein kann allgemeine Daten nicht mit einer bestimmten Person oder Identität verknüpfen. Es fehlt das Kontextbewusstsein, um festzustellen, ob ein Pronomen oder eine IP-Adresse zu dieser Person gehört. Sie können Datentypen zuordnen, aber keine Daten einer Identität.

Vor allem kann die Klassifizierung keine Antworten auf Fragen zu den Rechten der betroffenen Personen geben. Die DSGVO ist im Grunde eine Verordnung, die die Datenschutzrechte von Einzelpersonen verankert. Die Rechte der EU-Bürger auf Zugang, Übertragung, Löschung und Berichtigung ihrer Daten werden über die Definitionen und Anforderungen der DSGVO von 1995 hinaus weiter gestärkt. 95/46/EG Datenschutzrichtlinie. Für Unternehmen bedeutet das, dass sie die Daten jeder einzelnen Person berücksichtigen müssen. Klassifizierungsbasierte Datenermittlungstools können keinen Identitätskontext liefern. Deshalb erfordert Datenschutz einen neuen Ansatz zur Datenermittlung, der auf Identitätskorrelation und nicht nur auf Klassifizierung basiert. Denn Datenschutz bedeutet, den Kontext von Identitätsdaten zusammen mit dem Inhalt zu verstehen.

Intelligente Identitätsintelligenz

BigID verfolgt einen grundlegend anderen Ansatz zur Datenermittlung, der auf intelligenter Identitätskorrelation basiert. Datenschutz hat mit Menschen zu tun, und um personenbezogene Daten zu finden, muss man den Kontext verstehen. Um den Kontext von Personen oder Identitäten zu verstehen, nutzt BigID maschinelles Lernen, das auf die vorhandenen Datensätze der Kunden angewendet wird. Dieser Ansatz nutzt vorhandene Unternehmensdaten, um zu ermitteln, wie personenbezogene Daten in einem bestimmten Unternehmen aussehen und wie diese mit einer Identität verknüpft sind.

Mit BigID können die Trainingsdaten (oder „Seed“-Daten) des Unternehmens auf verschiedene Datenquellen verteilt werden, und eine beliebige Anzahl von Datensätzen kann für die Bootstrap-Erkennung verwendet werden. Keiner muss vollständig oder umfassend sein. Diese Datenquellen dienen dazu, grundlegende Kennungen, Beziehungen und Verteilungen zu verstehen. BigID nutzt dann die Eigenschaften dieser Daten, um verschiedene Informationen in anderen Datenspeichern zu kontextualisieren. Ohne den Einsatz von Software-Agenten und mit nur Lesezugriff kann BigID scannen. über eine beliebige Anzahl strukturierter, unstrukturierter und halbstrukturierter Repositories, Mainframes, Cloud-Umgebungen, Big Data Lagerhallenund Anwendungen, um personenbezogene Daten zu finden und sie automatisch einer Identität zuzuordnen.

Findet BigID unbekannte personenbezogene Daten (sogenannte „Dark Data“), die bisher nicht erfasst wurden, ordnet BigID ML diese automatisch einer Identität zu. Dabei werden Parameter wie Eindeutigkeit, Nähe, Häufigkeit usw. berücksichtigt. Dieser Prozess wird mit Scans jeder weiteren Datenquelle fortgesetzt, um immer umfassendere Diagramme der Datenbestände jeder Person zu erstellen. Wichtig ist, dass keine personenbezogenen Daten in die BigID-Software in der Unternehmensumgebung kopiert werden. Die BigID-Software speichert lediglich eine Hash-Darstellung der Daten jeder Person, die für spätere Suchvorgänge und die Berichterstattung zu Betroffenenrechten verwendet werden kann.

Entscheidend ist, dass BigID nicht bei der Korrelation endet. Sobald die Beziehungen der Datenelemente verstanden sind, werden die Daten klassifiziert und automatisch anhand des unternehmenseigenen Datenglossars katalogisiert. BigID-Kunden müssen sich also nicht zwischen Korrelation und Klassifizierung entscheiden. Sie erhalten beides und zusätzlich eine umfassende Möglichkeit zur Datenkatalogisierung für einfacheres Parsen und Analysieren. Im Gegensatz zu älteren, reinen Klassifizierungstools enthalten die resultierenden Datenkarten jedoch ein vollständiges Dateninventar für jede Person – unerlässlich, um die Rechte der betroffenen Personen, wie beispielsweise das Recht auf Vergessenwerden gemäß der DSGVO, zu erfüllen.

PI, nicht die PII Ihres Vaters

Eine intelligente Korrelation vor der Klassifizierung verschafft Unternehmen einen entscheidenden Vorteil bei der Lösung von Datenschutzfällen. Persönliche Rechte auf Auskunft, Datenübertragbarkeit, Berichtigung und Löschung lassen sich nun einfach operationalisieren. Daten lassen sich für die Analyse grenzüberschreitender Datenströme und von Souveränitätsverletzungen einfach nach Wohnsitz organisieren. Vorhandene Einwilligungsprotokolle können den betroffenen Personen zugeordnet werden, um einen umfassenden Überblick über die Einwilligungen aller Anwendungen nach Person zu erhalten. Zugriffsprotokolle können mit der Benutzerdatenaktivität abgeglichen werden, um eine detaillierte Ansicht der Nutzung der Daten einzelner Personen zu erhalten. Verschiedene Benutzerprofile können über verschiedene Datenspeicher hinweg verglichen werden, um Anomalien und möglichen Kontobetrug zu erkennen.

Die Klassifizierung nach der Korrelation bietet zudem eine Reihe einzigartiger operativer Vorteile. Klassifizierungsbasierte Tools sind in der Regel für bestimmte Datenspeicher optimiert, z. B. strukturierte, unstrukturierte oder Big-Data-Repositories, aber nicht für alle. Mit BigID können Scans in einer Vielzahl von Datenspeichern durchgeführt werden, darunter relationale Datenbanken, Dateifreigaben, Big-Data-Umgebungen, Data Warehouses, Dokumentrepositorys, ERP-Anwendungen, NoSQL-Speicher, SaaS, IaaS und mehr. Dies ermöglicht erstmals eine echte plattformübergreifende Kundendatenansicht.

Die Korrelation erfordert keine Datenduplizierung oder die Erstellung von Data Warehouses. Dadurch erhalten Unternehmen eine zentrale Übersicht über die Identifizierungsinformationen einer Person, ohne die Daten zentralisieren zu müssen. Die Korrelation erleichtert das Auffinden personenbezogener Daten (PI), und zwar nicht nur PII, da die Erkennung sowohl auf Kontext als auch auf Inhalt basiert. Da die BigID-Korrelations-Engine nicht präventiv versucht, Datentypen abzugleichen, kann sie Daten in jeder Sprache korrelieren. Die Korrelation kann sogar Beziehungen zwischen verschlüsselten und unverschlüsselten Daten aufdecken und so dazu beitragen, pseudoidentifizierbare Daten zu lokalisieren, was auch für die DSGVO wichtig ist.

Die drei Cs: Korrelation, Klassifizierung, Katalogisierung

Die korrelationszentrierte Suche ist nicht völlig neu, stellt aber für die Datenermittlung eine Neuheit dar. Internetsuchmaschinen verfolgen einen ähnlichen Ansatz, um das Internet effizient zu indizieren und so die Navigation zu erleichtern, indem sie einen analogen Hyperlink-Relevanzalgorithmus verwenden. Auch soziale Netzwerke nutzen Beziehungsgraphen, um Verbindungen zwischen Personen zu navigieren. Die Anwendung ähnlicher Ansätze zur Datenindizierung bietet eine Reihe von Vorteilen, von der Skalierbarkeit bis zur Datenunabhängigkeit. Aber vielleicht am wichtigsten ist, dass die zum Patent angemeldete identitätszentrierte Datenermittlung von BigID Unternehmen hilft, Datenschutzfälle wie die durch die DSGVO eingeführten zu bewältigen. Jetzt können Unternehmen nicht nur PII, sondern auch PI finden. Sie können Betroffenenrechte wie das Recht auf Vergessenwerden wahrnehmen. Sie können Fragen zu Datensouveränität, Datenspeicherort, Datenverletzungen und Einwilligungen einfacher beantworten. Aber vielleicht am wichtigsten ist, dass sie sich mit BigID nicht allein mit musterbasierter Klassifizierung zufrieden geben müssen. Sie können weiterhin Daten klassifizieren. Sie können Katalog Daten. Und zum ersten Mal können sie Daten korrelieren.