Die Frage, was personenbezogene Daten (PII) ausmacht, war früher vielleicht noch klar und eindeutig beantwortet. Sicherlich bleibt ein Datensatz, der eine bestimmte Person eindeutig identifiziert und ihre persönlichen Daten enthält, definitiv personenbezogene Daten. Die Definition dessen, was als personenbezogene Daten gelten kann oder darf, scheint sich jedoch zu verschieben – und, was noch wichtiger ist, auf potenziell identifizierbare personenbezogene Daten auszuweiten. Diese verschwimmenden Grenzen sind das Ergebnis neuer Vorschriften – insbesondere, aber nicht ausschließlich, der Datenschutz-Grundverordnung der Europäischen Union –, aber auch neuer Bedenken hinsichtlich der Wirksamkeit langjähriger Methoden zur Anonymisierung von Daten im Internet und des wachsenden Potenzials zur Reidentifizierung von Kunden durch die Zusammenführung verwandter Datensätze in der Big-Data-Infrastruktur.
Die Definition dessen, was als personenbezogene Daten gilt oder gelten kann, ist nicht nur eine obskure akademische Debatte oder Gegenstand datenschutzpolitischer Überlegungen. Vielmehr haben die neuen Definitionen privater Daten, die den Grad der Identifizierbarkeit und den Kontext berücksichtigen, konkrete Auswirkungen auf den Umgang mit personenbezogenen Daten. Um Compliance-Anforderungen, die eine breitere und strengere Definition personenbezogener Daten vorsehen, besser zu erfüllen und die Angriffsfläche zu reduzieren, ist eine dynamische, flexible Datenmanagementstrategie erforderlich, die auf Echtzeittransparenz und -analysen basiert.
Datenschutz erfordert mehr als nur die Anonymisierung

Die Entwicklung der EU-DSGVO lässt darauf schließen, dass die Klassifizierung personenbezogener Daten und damit auch deren Verwaltung und Schutz künftig eine größere operative Herausforderung darstellen werden. Die EU-DSGVO führt erstmals eine dritte Kategorie personenbezogener Daten ein, die elegant als „Pseudonymisierung“ bezeichnet wird und die bestehenden Kategorien personenbezogener und anonymer Daten ergänzt. Pseudonyme Daten sind Informationen, die ohne zusätzliche Informationen keine Identifizierung einer Person mehr zulassen und von dieser getrennt aufbewahrt werden.
Die neue Kategorie erhöht jedoch nicht nur die Komplexität. Sie geht einerseits auf einige der Bedenken ein, die sich aus einer zu weit gefassten Definition privater Daten ergeben, die Forschungsaktivitäten einschränkt. Andererseits soll die Kategorie viele gängige Praktiken der Anonymisierung, insbesondere im Internet, untergraben und verhindern. Im Endeffekt wird mit der Kategorie eine juristische Definition in eine technische Definition umgewandelt.
De-Identifizierung, wie der Begriff schon sagt, beinhaltet die Schwärzung spezifischer Informationen zur Identität der betroffenen Person, um sie in die anonyme Kategorie zu verschieben. In der Online- und Mobilwelt, wo Cookies, Tags und Apps große Mengen an Informationen über eine Person erfassen können, werden De-Identifizierungsprozesse wie das Ersetzen personenbezogener Daten durch eine Zufallszahl oder einen Hash eingesetzt, um Daten zu anonymisieren und den Umfang der Compliance-Anforderungen zu reduzieren. Die Standards der Werbebranche in den USA betrachten solche Daten im Großen und Ganzen als nicht personenbezogen.
Wie groß die Skepsis ist, zeigt sich im Bericht der Artikel-29-Datenschutzgruppe der EU, der im Vorfeld der Fertigstellung der DSGVO veröffentlicht wurde: „Wenn Pseudonymisierung auf der Ersetzung einer Identität durch einen anderen eindeutigen Code basiert, ist die Annahme, dass dies eine robuste De-Identifizierung darstellt, naiv und berücksichtigt nicht die Komplexität der Identifizierungsmethoden und die vielfältigen Kontexte, in denen sie angewendet werden könnten.“
Identität verbergen ist kein Schutz der Identität

Grund für die Skepsis ist die Ansicht der EU-Regulierungsbehörden, dass bestehende De-Identifizierungstechniken nicht ausreichen, um ihr eigentliches Ziel zu verhindern: die Reidentifizierung bestimmter Personen. Diese Skepsis zeigt sich auch in der Einbeziehung von MAC-Adressen als direkte Kennung in die neue Definition privater Daten in der DSGVO sowie in den vorgeschlagenen Regeln der FCC.
Zwischen den Zeilen lesend, befürchten Regulierungsbehörden außerdem, dass Organisationen, die große Mengen personenbezogener Daten über Online-Identitäten, Cookies, Tags oder mobile Apps sammeln, speichern und verarbeiten, sowohl Angreifer als auch die Organisationen, die die Daten selbst besitzen, Nutzer leicht wieder identifizieren können. Es besteht nun die Möglichkeit, die lineare „Unverknüpfbarkeit“ leicht zu verhindern.
Die Herausforderung für Unternehmen, die die Verordnung einhalten wollen, besteht nicht nur darin, Datenminimierung zu implementieren, um die Ansammlung von Kopien derselben Daten zu verhindern, die relativ einfach verknüpft werden können, sondern auch darin, die sogenannte Datennähe innerhalb ihrer Big-Data-Infrastruktur zu verwalten. Es besteht nicht nur die Sorge, dass der De-Identifizierungsprozess durch Zusammenführen oder Verknüpfen zweier verwandter Datensätze leicht rückgängig gemacht werden kann, sondern auch, dass Angreifer im Zeitalter von Big Data mit wenigen Handgriffen Teile öffentlicher und privater Daten zusammenführen können, um eine bestimmte Person erneut zu identifizieren.
Datenschutzkonformität im Zeitalter vereinfachter Re-Identifizierung

Die Einschränkung der Reidentifizierung sollte nicht nur ein Compliance-Problem sein. Datenschutz, Governance, Datenspeicherungsvorschriften und Datensicherheit scheinen zwar manchmal im Widerspruch zueinander zu stehen, doch hier laufen die Bemühungen zur Risikominderung zusammen. Das Verständnis des Grads der Datennähe hilft nicht nur zu erkennen, wo das Risiko besteht, Compliance-Bedenken zu verletzen und Daten versehentlich von einer Kategorie in eine andere zu verschieben. Die Reidentifizierung von Daten birgt auch das Risiko von Verstößen gegen Datenschutzrichtlinien und Nutzereinwilligungsvereinbarungen.
Sicherheit sSicherheitsvorkehrungen, Segmentierung und Zugriffskontrollen Durch Kontrolle der Art und Weise, wie Daten beschafft, verwendet oder verbreitet werden, lässt sich das Risiko verringern. Allerdings ist ein proaktiverer Ansatz erforderlich, der nicht nur anzeigt, wenn die Gefahr einer Offenlegung ausdrücklich privater Daten besteht, sondern auch, ob diese auf ihrem Weg durch die Verarbeitungsabläufe erneut identifiziert werden könnten.
Das Management des Risikos einer unbeabsichtigten und böswilligen Neuidentifizierung durch Angreifer ist keine leichte Aufgabe, insbesondere wenn sich Unternehmen an ein Mosaik aus Vorschriften halten und Transparenz in mehreren Dimensionen erlangen müssen.
Unternehmen könnten sogar einen probabilistischen Ansatz mit Compliance- und Sicherheitsvorteilen verfolgen, um das Risiko einer erneuten Identifizierung besser zu ermitteln, wenn Administratoren, Dienste, APIs, Mitarbeiter oder Dritte auf zwei Datenquellen zugreifen. Dieser Ansatz ist jedoch nur dann umsetzbar, wenn Unternehmen ihre Daten in Echtzeit einsehen, die Erkennung riskanter Datennähe automatisieren, Kontrollen dynamisch anwenden oder Richtlinien bei erkannten Risiken anpassen können.