Heutzutage, wo Smartphones praktisch allgegenwärtig sind, sieht man selten ein Klapphandy. Doch im Bereich der Datensicherheit, wo Präzision und Kontext entscheidend sind, nutzen immer noch zu viele Nutzer Klapphandy-Technologie, um persönliche Daten zu entdecken, zu verstehen und zu klassifizieren.
Im Zeitalter der Klapphandys war die Klassifizierung nur ein Mittel zum Zweck. Indem Unternehmen durch endloses Optimieren regulärer Ausdrücke und den Vergleich der Rohdaten übereinstimmender PII ermittelten, wo sensible Daten gespeichert waren, konnten sie – theoretisch – von panischer Hektik zu einer Konzentration auf die Datenquellen mit dem größten Sicherheits- und Compliance-Risiko übergehen.
Doch heute muss die Klassifizierung als integraler Bestandteil von Datenmanagement, Datensicherheit und Datenschutz funktionieren. Im Zeitalter des Datenschutzes ist Identität Korrelation ist für den Wert, die Relevanz und die Genauigkeit der Klassifizierung von entscheidender Bedeutung.
Moderne Klassifizierung: Kontext und Korrelation
Ohne den durch Identitätskorrelation gewonnenen Kontext wissen Unternehmen nicht, welche personenbezogenen Daten sie speichern und verarbeiten – und damit auch nicht, welchen Datenschutz-, Sicherheits- und Compliance-Risiken sie ausgesetzt sind. Die Fähigkeit, die Beziehung zwischen Datenwerten und korrelierten Identitäten bereits vor der Klassifizierung zu verstehen, vermeidet einen der grundlegenden Mängel der herkömmlichen Klassifizierung: Sie bleibt bei scheinbar identischen Daten hängen, verfügt aber über keinen Mechanismus zur Disambiguierung.
Ohne einen Datenkatalog, der mithilfe der Identitätskorrelation erstellt wird, Entdeckung Durch die Integration von Katalogisierungsfunktionen und Klassifizierung gewinnen Unternehmen eine zusätzliche Kontextebene, indem sie das Verständnis personenbezogener Daten mit der Metadatenanalyse verknüpfen.
Ebenso wie die Klassifizierung, bei der Daten isoliert betrachtet werden, an Bedeutung verliert, sollte die Klassifizierung selbst als Teil eines umfassenderen Ansatzes betrachtet werden, der Klassifizierung, Korrelation und Katalogisierung integriert.
Datenschutz verändert die Spielregeln
Personenbezogene Daten – wie sie in neuen Datenschutzbestimmungen wie der EU-DSGVO und der Kalifornisches Verbraucherschutzgesetz – sind sensibel, je nachdem, ob sie einer Person zugeordnet werden. Ein Paradebeispiel sind Standortdaten (besonders relevant im Smartphone-Zeitalter). Standortdaten sind nicht eindeutig einer Person zuzuordnen, werden jedoch durch die Zuordnung zu einer Person personenbezogen.
Ohne diesen persönlichen TV-Kontext kann Ihnen die herkömmliche Klassifizierung nichts darüber sagen, was personenbezogene Daten sind – selbst wenn die Technologie mehr als nur einen Datenquellentyp scannen oder Datensilos aggregieren kann.
In den Jahren seit der ersten Welle von Datenschutzverletzungen und den PCI-DSS-Anforderungen, die zur Einführung der Klassifizierung per Musterabgleich führten, gab es Bemühungen, die Anzahl falscher Positivergebnisse zu reduzieren und in jüngster Zeit maschinelles Lernen einzusetzen, um das ressourcenintensive RegEx-Training zu automatisieren und zu verfeinern.
Diese neuen Iterationen desselben Ansatzes sagen Ihnen immer noch dasselbe: Sie liefern Datenzählungen, keine Datenbuchhaltung, und führen eine grobe Klassifizierung auf Ordnerebene durch, keine detaillierte Buchführung auf Datenwertebene.
Früher mussten sich Unternehmen nur um Kreditkarten und Sozialversicherungsnummern kümmern. Heute müssen sie alle personenbezogenen Daten identifizieren, selbst solche, die nur aufgrund ihres Personenbezugs oder ihres Kontextes persönlich sind. Das stellt ein großes Problem für die Identitätssicherheit dar.
Es gibt Hoffnung am Horizont
Glücklicherweise gibt es jetzt einen besseren Ansatz, der auf moderne Datenumgebungen zugeschnitten ist. So wie Smartphones nicht nur Sprache und Text unterstützen, nutzt die moderne Datenklassifizierung auch veraltete Methoden wie reguläre Ausdrücke als einen Pfeil im Köcher.
Doch statt dass die Klassifizierung durch Mustervergleich der erste und einzige Schritt ist, beginnt dieser Ansatz mit den Datenwerten selbst, stellt fest, ob die Daten eindeutig identifizierbar sind, den Grad der Korrelation mit anderen Datenwerten, bestimmt, mit wem oder was die Daten verknüpft sind, und wendet dann die Klassifizierung an.
Die Klassifizierungsergebnisse können auch durch Interaktion mit dem zugrunde liegenden Machine-Learning-Modell oder durch Integration in ein Unternehmensglossar modifiziert werden. Diese Interaktionen werden in die Machine-Learning-Modelle integriert, um die Genauigkeit kontinuierlich zu verbessern.
Das Ergebnis ist eine dynamische und umfassende Bestandsaufnahme und Abbildung aller personenbezogenen Daten in den Unternehmensumgebungen, die durch Klassifizierung aufgeschlüsselt und interpretiert werden können, um Entscheidungen und Prozesse zu strukturieren – oder vielmehr eine Darstellung, die auf einer fundierten Vermutung basiert und angibt, welche Ordner am häufigsten rot aufleuchten.
Wenn Daten aufgrund der Verbindung mit einer Einzelperson personenbezogen sind, sollte die Klassifizierung auf dieser Verbindung basieren und nicht auf den Einschränkungen des Technologietools.
Klassifizierung für das Datenschutzzeitalter
Ein datenorientierter Ansatz erfordert einen mehrstufigen Prozess, der etablierte Methoden einbeziehen und erweitern kann und die Grundlage für die Integration von Werkzeugen des maschinellen Lernens legt, um Beziehungen wie neuronale Netzwerke oder Random-Tree-Klassifizierer sowie die Verarbeitung natürlicher Sprache herzustellen.
Die Gesamtbetrachtung der Daten ermöglicht eine höhere Genauigkeit und die Erkennung von Dark Personal Data. Um dieses Ergebnis zu erreichen, muss der Ansatz mehrere Komponenten umfassen.
• Umfangreiche Abdeckung im gesamten Unternehmen: Unstrukturiert, strukturiert, halbstrukturiert, Wolke und Apps („Legacy“ wie SAP und SaaS wie Salesforce)
• Korrelation und maschinelles Lernen zum Herstellen von Datenbeziehungen
• Generieren Sie detaillierte Erkenntnisse – Erkennung und Klassifizierung von Ordnern, Dateien und Datenobjekten
- Erweitern Sie reguläre Ausdrücke durch Anreicherung
- Keine „Black Box“: Überwachtes Lernen, Modellinteraktion und Integration von Geschäftsglossaren
- Erweiterte unstrukturierte Datenintelligenz: Auf neuronalen Netzwerken basierende Entitätsextraktion und -auflösung für „Dark Data“ in unstrukturierten Datenquellen