Skip to content
Voir tous les articles

Identifier les données d'identité : Le reconnaîtrez-vous si vous le voyez ?

Ce qui pouvait constituer par le passé une réponse claire et binaire à la question de savoir ce qui constitue des informations personnelles identifiables (IPI) deviendra bientôt plus complexe et complexe. Certes, un ensemble de données qui identifie explicitement une personne et relie ses informations personnelles reste indéniablement des IPI. Cependant, la définition de ce qui pourrait être considéré comme des données personnelles semble évoluer et, plus important encore, s'étendre aux informations personnelles potentiellement identifiables. Cette confusion résulte de nouvelles réglementations, notamment, mais pas exclusivement, du Règlement général sur la protection des données de l'Union européenne, mais aussi de nouvelles inquiétudes quant à l'efficacité des méthodes traditionnelles d'anonymisation des données en ligne et du potentiel croissant de réidentification des clients par la fusion d'ensembles de données connexes disséminés dans l'infrastructure Big Data.

La définition de ce qui constitue ou pourrait être considéré comme une donnée personnelle ne relève pas d'un simple débat académique obscur ni des délibérations des experts en politique de confidentialité. Au contraire, les nouvelles définitions des données privées, prenant en compte le degré d'identifiabilité et le contexte, ont des implications bien réelles sur la gestion des données personnelles. Pour mieux répondre aux exigences de conformité qui définissent les données personnelles de manière plus large et plus stricte, et réduire la surface d'attaque, une stratégie de gestion des données dynamique et flexible, basée sur une visibilité et des analyses en temps réel, est nécessaire.

La protection de la vie privée ne se limite pas à la dépersonnalisation

Si l'on en croit l'orientation prise par le RGPD de l'UE, la classification des données personnelles, et par extension leur gestion et leur protection, risque de devenir un défi opérationnel plus important. Le RGPD de l'UE introduit pour la première fois une troisième catégorie de données personnelles, appelée avec élégance « pseudonymisation », en plus des catégories existantes de données personnelles et anonymes. Les données pseudonymes sont des informations qui ne permettent plus l'identification d'une personne sans informations complémentaires et sont conservées séparément de celle-ci.

La nouvelle catégorie ne se contente pas d'accroître la complexité. D'une part, elle répond à certaines préoccupations concernant une définition trop large des données privées, qui restreint les activités de recherche. D'autre part, elle vise à saper et à décourager de nombreuses pratiques acceptées de dépersonnalisation, notamment en ligne. En effet, cette catégorie transforme une définition juridique en une définition technique.

La dépersonnalisation, comme son nom l'indique, consiste à supprimer des informations spécifiques relatives à l'identité de la personne concernée afin de les rendre anonymes. Dans les environnements en ligne et mobile, où les cookies, les tags et les applications peuvent collecter de grandes quantités d'informations sur un individu, des procédés de dépersonnalisation, tels que le remplacement des données personnelles par un nombre aléatoire ou un hachage, ont été utilisés pour anonymiser les données et réduire le champ d'application des exigences de conformité. De manière générale, les normes du secteur publicitaire aux États-Unis considèrent ces données comme non personnelles.

Le degré de scepticisme est évident dans le rapport publié par le groupe de travail Article 29 de l’UE en vue de la finalisation du RGPD : « Si la pseudonymisation est basée sur la substitution d’une identité par un autre code unique, la présomption selon laquelle cela constitue une désidentification robuste est naïve et ne prend pas en compte la complexité des méthodologies d’identification et les contextes multiples dans lesquels elles pourraient être appliquées. »

Cacher son identité ne signifie pas la protéger

Ce scepticisme s'explique par le fait que les régulateurs européens estiment que les techniques de dépersonnalisation existantes ne parviennent pas à empêcher leur objectif initial : la réidentification d'individus spécifiques. Ce scepticisme se manifeste également dans l'intégration des adresses MAC comme identifiant direct dans la nouvelle définition des données privées du RGPD, ainsi que dans les propositions de règles de la FCC.

De plus, en lisant entre les lignes, les régulateurs craignent que, lorsque les organisations collectent, stockent et traitent de grandes quantités de données relatives à un individu via des identités en ligne, des cookies, des tags ou des applications mobiles, les attaquants et les organisations détenant ces données puissent facilement réidentifier les utilisateurs. Il est désormais possible de contrecarrer facilement la « dissociabilité » linéaire.

Le défi auquel sont confrontées les organisations souhaitant se conformer au Règlement consiste non seulement à minimiser les données pour éviter l'accumulation de copies de données identiques, relativement faciles à relier, mais aussi à gérer ce que l'on appelle la proximité des données au sein de leur infrastructure Big Data. On craint non seulement que le processus d'anonymisation soit facilement réversible par la fusion ou la liaison de deux ensembles de données connexes, mais aussi qu'à l'ère du Big Data, les attaquants puissent facilement fusionner des données publiques et privées en quelques étapes simples pour réidentifier un individu spécifique.

Conformité à la confidentialité à l'ère de la réidentification simplifiée

Limiter la réidentification ne devrait pas être uniquement une question de conformité. Si la confidentialité, la gouvernance, la réglementation sur la résidence des données et la sécurité des données peuvent parfois sembler contradictoires, c'est un domaine où les efforts d'atténuation des risques convergent. Comprendre le degré de proximité des données permet également de comprendre non seulement les risques de non-conformité et de transfert involontaire de données d'une catégorie à une autre, mais aussi les risques de violation des politiques de confidentialité et des accords de consentement des utilisateurs.

Sécurité sgaranties, segmentation et contrôles d'accès Des contrôles sur la manière dont les données sont obtenues, utilisées ou diffusées peuvent atténuer les risques, mais une approche plus proactive est nécessaire non seulement pour signaler quand des données explicitement privées risquent d'être exposées, mais aussi si elles peuvent être réidentifiées au fur et à mesure de leur progression dans les flux de traitement.

Gérer le risque de réidentification par inadvertance ou par malveillance par des attaquants n’est pas une tâche simple, en particulier lorsque les organisations doivent s’aligner sur une mosaïque de réglementations et gagner en visibilité dans plusieurs dimensions.

En fait, les organisations pourraient même adopter une approche probabiliste, alliant conformité et sécurité, afin de mieux identifier le potentiel de réidentification si deux sources de données sont consultées par des administrateurs, des services, des API, des employés ou des tiers. Cependant, cette approche n'est réalisable que si les organisations peuvent maintenir une visibilité en temps réel sur leurs données, automatiser la détection de la proximité de données à risque, appliquer dynamiquement des contrôles ou modifier les politiques en cas de risque.

Contenu