Zum Inhalt springen
Alle Beiträge anzeigen

Die Rolle von KI, ML, und Deep Learning in Datenschutz

Maschinelles Lernen, künstliche Intelligenz und mittlerweile auch Deep Learning sind so überstrapaziert, dass sie fast schon Synonym für Feenstaub und Zaubersprüche sind. Doch Ansätze, die diese Techniken nutzen, verändern still und leise die Art und Weise, wie Unternehmen ihre größte Herausforderung – das Verstehen und Schützen von Daten – bewältigen.  

Diese Herausforderung lässt sich kurz wie folgt beschreiben: Wie erlangt man am besten Datenwissen, um Informationen besser verwalten und schützen zu können?

Die Kenntnis Ihrer Daten ist für deren Schutz unerlässlich, denn Sie können nicht schützen, was Sie nicht verstehen. Datenkenntnis ist auch entscheidend für Erkenntnisse, Risikoprofile und den Nutzen Ihrer Daten. Traditionelle, manuelle Ansätze zur Erfassung und Verarbeitung personenbezogener Daten basieren auf Interviews und Umfragen. Weder Interviews noch Umfragen sind zuverlässig, präzise noch skalierbar – insbesondere im Zeitalter von Big Data. Maschinelle Ansätze zur Abfrage von Datenspeichern versprechen mehr Detailgenauigkeit, Zuverlässigkeit und Präzision im Datenwissen – insbesondere wenn die richtigen Schritte unternommen werden, um das Modell an die Dateneingaben anzupassen.

Doch das Sortieren, Organisieren und Verstehen von Petabytes an digitalem Datenmüll ist keine leichte Aufgabe. Automatisierte regelbasierte Klassifizierungstechniken helfen zwar, reichen aber noch nicht aus, um den Datenkontext zu verstehen. Hier bieten fortschrittliches maschinelles Lernen und verwandte Ansätze einen Weg zu einer besseren Abbildung und einem besseren Verständnis personenbezogener Daten – der Grundlage für effektiven Datenschutz und Privatsphäre.

Menschen und Datenschutz

Ironischerweise besteht das Ziel fortgeschrittenen maschinellen Lernens im Hinblick auf Datenschutzprobleme nicht unbedingt darin, bei der Datenverarbeitung menschlicher zu werden. KI wird typischerweise damit in Verbindung gebracht, Eingaben wie Texte, Interaktionen und Bilder durch ständige Iteration und Feedback zu interpretieren, um eine Automatisierung von Aktionen und Verhaltensweisen zu ermöglichen, die von menschlichen nicht zu unterscheiden ist. Für Datenschutz und Privatsphäre gilt das Gegenteil: Menschen können schlecht beurteilen, welche Daten sich wo befinden, wie sie mit anderen Daten verknüpft sind, wie sie Datennutzung und -flüsse verfolgen und wie sie Datenrisiken bewerten.

Im Hinblick auf den Datenschutz besteht das übergeordnete Ziel darin, Daten anhand von Beziehungen und nicht nur anhand von Ähnlichkeiten zu analysieren – und zwar auf eine Weise, die dem Menschen nicht möglich ist. ML und Deep Learning bieten eine Reihe von Ansätzen, die auf spezifische Datenherausforderungen angewendet werden können und den Aufbau eines nachhaltigen Modells für Datenschutzprobleme ermöglichen, die von Kontext, der Abbildung von Beziehungen und Datenflüssen abhängen.  

Keine einzelne Technik allein ist jedoch ein Allheilmittel. Durch die zweckdienliche Kombination von Machine-Learning-Komponenten – seien es Random-Tree-Klassifikatoren zur Verbesserung von Genauigkeit, Korrelation und Argumentation, Wahrscheinlichkeitsschwellenwerte zur Beurteilung von Datenbeziehungen, Clustering für prädiktive Stichprobennahme und Vergleichsanalyse der Verteilung personenbezogener Daten, neuronale Netzwerke zur Extraktion und Auflösung von Entitäten sowie Konfidenzbewertungen zum Ausgleich von Präzision und Trefferquote – können Unternehmen ein umfassendes Bild zum Datenschutz aufbauen und aufrechterhalten.

Mensch gegen Maschine

Bei Problemen mit Privatsphäre und Datenschutz reicht menschliches Bemühen nicht aus, personenbezogene Daten zu finden, zu klassifizieren oder zu sortieren. Datenschutz beruht in erster Linie darauf, zu verstehen, welche personenbezogenen Daten eine Organisation sammelt und wie diese verarbeitet und genutzt werden. Dies erfordert eine genaue Bestandsaufnahme personenbezogener Daten. Interviews und Umfragen können nur Bestandsaufnahmen auf Grundlage von Erinnerungen erstellen – nicht auf Grundlage tatsächlicher Datensätze. Eine Maschine ist leistungsfähiger als der Mensch, wenn es darum geht, Datensätze in anderen Maschinen zu untersuchen.

Damit eine Maschine ein Dateninventar erstellen kann, muss sie alle Datenquellen durchsuchen und diese nach Typ, Person, Speicherort und Anwendung klassifizieren können, unabhängig davon, ob sie sich in einer Datenbank, einem File Share, einem Big Data Warehouse oder einem Cloud-Dienst befinden. Dies wird oft als Dateninventar bezeichnet, bei dem die Daten mithilfe eines anderen Pivots organisiert werden können, um ihren Kontext besser zu verstehen.

Hier kommen Ansätze ins Spiel, die den Grad der Korrelation zwischen weit verteilten Datenwerten ermitteln, Beziehungen zwischen stark korrelierten Werten durch Schlussfolgerung grafisch darstellen und Modelle des maschinellen Lernens zur Gewährleistung der Klassifizierungsgenauigkeit anwenden und so die Herausforderung des Datenwissens bewältigen können.

Frühe Versuche, Daten maschinell zu analysieren und in einem umfassenden Inventar zu organisieren, stützten sich auf handelsübliche Indexierungs- und Mustererkennungstechnologien. Tools wie Elasticsearch bieten einfache Möglichkeiten, Terabyte an Daten zu indizieren und ähnlich aussehende Informationen mithilfe verschiedener ML-Algorithmen abzugleichen.

Diese frühen Versuche einer Dateninventur waren zwar ein Fortschritt, wiesen aber unüberbrückbare Mängel auf. Im Zuge der Lösung des Problems der Dateneingabe schaffen sie neue Probleme. Die Nutzung eines externen Warehouses für die Analyse ist angesichts der Datenmengen, die die meisten Unternehmen verwalten, unpraktisch, da hierfür große Mengen sensibler Informationen in einen sekundären Speicher kopiert werden müssen. Zudem entstehen enorme Infrastrukturkosten für die Indizierung. Darüber hinaus stellt die Zentralisierung sensibler Daten an einem Ort ein ernstes Sicherheitsproblem dar.

Die Probleme beschränken sich jedoch nicht nur auf die notwendigen Schritte zur Indexierung. Auch der Wert der Ergebnisse ist begrenzt. Selbst ein vollständiger Index hilft, Daten nach Typ zu klassifizieren – nicht aber nach Personen. Datenschutz erfordert grundsätzlich den Kontext der Person; er erfordert das Verständnis, welche Daten personenbezogen sind und wem sie gehören. Daten werden dadurch personenbezogen, dass sie kontextuell mit einer Person verknüpft sind: Sie handeln per Definition von dieser Person oder stammen von ihr.

Naive ML-Klassifizierungsalgorithmen, die Muster abgleichen können, können zwar helfen, zwei ähnlich aussehende Entitäten zu identifizieren, können aber nicht automatisch eine Korrelation mit einer Person herstellen, um festzustellen, ob die Daten personenbezogene Daten darstellen. Dies erfordert eine andere Art von ML und Deep Learning, die in Standardtools wie Elasticsearch nicht verfügbar ist.

Die große Idee von BigID ML

 

Der Schutz von Privatsphäre und personenbezogenen Daten beginnt mit effektiver Datenintelligenz, die Aufschluss darüber gibt, welche personenbezogenen Daten ein Unternehmen sammelt, wem sie gehören und wie sie verwendet werden. Manchmal wird dies als Dateninventar und Datenverarbeitungsprotokoll bezeichnet, geht aber darüber hinaus. Es erfordert die Fähigkeit, Daten zu finden, zu klassifizieren, zu korrelieren, zu katalogisieren und sogar zu verfolgen, während sie in einem Unternehmen erfasst und verarbeitet werden. All dies ist keine leichte Aufgabe, und die Komplexität und Vielfalt der Orte und Methoden, mit denen Unternehmen über ihre mobilen, Web- und IoT-Anwendungen Daten über Personen erfassen, erschwert sie zusätzlich.

Der Versuch, diese Probleme durch Iteration eines Puzzleteils zu lösen, verbessert zwar einige Aspekte des Problems, lässt aber die umfassendere Frage des Datenwissens einzelner Personen oder Entitäten ungelöst. Darüber hinaus wird ein Black-Box-Ansatz, der keine Interaktion mit der Vertrauensbewertung oder die Verfeinerung von Korrelationsmethoden und Klassifizierungsgenauigkeit ermöglicht, den komplexen Unternehmensdatenbeständen nicht gerecht.

Um die Zusammenhänge zwischen entdeckten Daten und Attributen mit hoher Genauigkeit und Sicherheit im Kontext der Daten zu verstehen, ohne durch unnötiges Rauschen und Fehlalarme belastet zu werden, ist speziell entwickeltes maschinelles Lernen erforderlich. Datenermittlung, Klassifizierung, Identitätskorrelation sowie datenschutzspezifische Anforderungen wie die Einwilligungsprüfung basieren jeweils auf unterschiedlichen Techniken, Trainingsmodellen, Argumentationen und Eingabegewichtungen. Diese Elemente müssen jedoch in ein schlüssiges Modell passen, das auf neue maschinelle oder menschliche Eingaben reagieren kann, um einen wirksamen Datenschutz zu gewährleisten.

 

Inhalt