Skip to content
Voir tous les articles

Corrélation et classification : Réimaginer la découverte de données à l'ère du GDPR

Avec l’avènement de l’ère de la vie privée et l’imminence Règlement général sur la protection des données, les organisations commencent à se rendre compte que s'appuyer sur classification pour la découverte de données a atteint ses limites. Le RGPD, et la confidentialité en général, concernent dont les données dont vous disposez, pas seulement quoi Les données dont vous disposez. La confidentialité repose sur l'identité ; elle concerne les personnes. Les outils de découverte basés sur la classification ne tiennent pas compte du contexte identitaire et ne peuvent donc pas répondre aux défis critiques en matière de confidentialité, tels que droits de la personne concernée, ou la recherche d'informations personnelles (IP) au-delà des catégories traditionnelles d'IPI. Pour relever les défis de confidentialité de 2018, il est absurde de s'appuyer sur la technologie de l'ère PCI, développée pour trouver des modèles de données hautement structurés. Les nouveaux problèmes nécessitent de nouvelles approches, et la découverte centrée sur la confidentialité nécessite une corrélation centrée sur l'identité.

Du contenu au contexte

 

Centré sur la classification découverte de données Apparus il y a plusieurs décennies, ils aident les organisations à catégoriser leurs données par type et à répondre aux nouvelles exigences de conformité, telles que PCI et HIPAA. Ces outils de découverte, centrés sur la classification, s'appuient sur la correspondance de modèles pour catégoriser les données. La classification repose invariablement sur des variantes d'expressions régulières permettant de classer des données présentant des modèles similaires. La plupart des outils de sécurité modernes intégrant des composants de découverte (tels que DLP, DRM et DAM) reposent sur ce type de mécanisme de reconnaissance de modèles.

Cependant, la classification traditionnelle présente des faiblesses inhérentes qui s'accentuent lorsqu'elle est utilisée pour des cas d'utilisation liés à la confidentialité comme le RGPD. Premièrement, les approches basées sur la classification manquent de précision. Pour des données bien structurées, comme les informations de carte de paiement, les outils basés sur la classification peuvent être efficaces, mais ils ne permettent pas de distinguer différents types de données d'apparence similaire. (Par exemple, aux États-Unis, les numéros de sécurité sociale et les codes postaux ZIP+4 sont tous deux des nombres à neuf chiffres, et il n'est pas rare de les stocker sans délimiteurs, tels que des tirets.) La classification perd beaucoup de précision lorsque les types de données présentent moins de caractéristiques distinctives uniques ou ne suivent pas de modèles bien définis.

De plus, les outils de classification ne permettent pas de distinguer ce qui est personnel de ce qui ne l'est pas. L'Europe définit le terme « personnel » de manière très large. En termes simples, une donnée est personnelle si elle apparaît dans le contexte d'un individu spécifique. La recherche de motifs ne permet pas à elle seule de relier des données générales à une personne ou à une identité particulière. Elle manque de connaissance contextuelle pour déterminer si un pronom ou une adresse IP appartient à cet individu. Ils peuvent associer des types de données, mais pas des données à une identité.

Plus important encore, la classification ne peut répondre aux questions relatives aux droits des personnes concernées. Le RGPD est fondamentalement un règlement qui consacre les droits des individus en matière de données. Les droits des citoyens de l'UE à accéder à leurs données, à les transférer, à les effacer et à les rectifier sont renforcés, au-delà des définitions et exigences du RGPD de 1995. 95/46/CE Directive sur la protection des données. Pour les organisations, cela implique de comptabiliser les données de chaque individu. Les outils de découverte de données basés sur la classification ne peuvent pas fournir de contexte d'identité. C'est pourquoi la protection de la vie privée nécessite une nouvelle approche de la découverte de données, fondée sur la corrélation d'identité, et pas seulement sur la classification. En effet, la confidentialité repose sur la compréhension du contexte des données d'identité, ainsi que de leur contenu.

Devenir intelligent en matière de renseignement sur l'identité

BigID a adopté une approche fondamentalement différente de la découverte de données, fondée sur la corrélation intelligente des identités. La confidentialité est une question d'individus, et pour trouver des données personnelles, il est nécessaire de comprendre leur contexte. Pour comprendre le contexte des individus ou des identités, BigID s'appuie sur l'apprentissage automatique appliqué aux données existantes des clients. Cette approche utilise les données d'entreprise existantes pour déterminer l'apparence des informations personnelles dans une entreprise donnée et leur lien avec une identité.

Avec BigID, les données d'entraînement de l'organisation (ou données « initiales ») peuvent être réparties entre différentes sources de données, et un nombre illimité d'ensembles de données peut être utilisé pour amorcer la découverte. Aucun n'a besoin d'être exhaustif. Ces sources de données servent à comprendre les identifiants, les relations et les distributions de base. BigID exploite ensuite les propriétés de ces données pour contextualiser diverses informations dans d'autres bases de données. Sans nécessiter le déploiement d'agents logiciels et avec un accès en lecture seule, BigID peut scanner sur un nombre quelconque de référentiels structurés, non structurés et semi-structurés, de mainframes, d'environnements cloud, de Big Data entrepôts, et des applications afin de trouver des données personnelles et de les corréler automatiquement à une identité.

Lorsque BigID détecte des données personnelles inconnues (c'est-à-dire des « données obscures ») qu'il n'a jamais rencontrées auparavant, BigID ML les corrèle automatiquement à une identité en fonction de paramètres tels que l'unicité, la proximité, la fréquence, etc. Ce processus se poursuit par l'analyse de chaque source de données supplémentaire afin de créer des graphiques toujours plus riches des données de chaque personne. Il est important de noter qu'aucune donnée personnelle n'est copiée dans le logiciel BigID exécuté dans l'environnement de l'entreprise. Le logiciel BigID conserve uniquement une représentation graphique hachée des données de chaque personne, utilisable pour des recherches ultérieures et des rapports sur les droits des personnes concernées.

Point crucial, BigID ne se limite pas à la corrélation. Une fois les relations entre les éléments de données comprises, les données sont ensuite classées et automatiquement cataloguées à l'aide du glossaire de données de l'organisation. Ainsi, les clients de BigID n'ont pas à choisir entre la corrélation et la classification. Ils bénéficient des deux, ainsi que d'une méthode complète de catalogage des données pour faciliter l'analyse. Cependant, contrairement aux anciens outils de classification, les cartes de données obtenues incluent un inventaire complet des données pour chaque individu, essentiel pour satisfaire aux exigences en matière de droits des personnes concernées, comme le droit à l'oubli prévu par le RGPD.

PI, pas les PII de votre père

En commençant par une corrélation intelligente avant la classification, les organisations bénéficient d'un avantage crucial pour résoudre les cas d'utilisation liés à la confidentialité. Les droits d'accès, de portabilité, de rectification et d'effacement personnels sont désormais faciles à mettre en œuvre. Les données peuvent être facilement organisées par lieu de résidence pour l'analyse des flux transfrontaliers et les violations de souveraineté. Les journaux de consentement existants peuvent être corrélés aux personnes concernées afin d'offrir une vue complète du consentement entre les applications et par personne. Les journaux d'accès peuvent être croisés avec l'activité des données utilisateur afin d'offrir une vue précise de l'utilisation des données de chaque individu. Différents profils d'utilisateurs peuvent être comparés entre différents entrepôts de données afin de détecter les anomalies et les éventuelles fraudes de compte.

La classification après corrélation offre également de nombreux avantages opérationnels uniques. Les outils basés sur la classification sont généralement optimisés pour des bases de données spécifiques, telles que les référentiels structurés, non structurés ou Big Data, mais pas pour tous. Avec BigID, les analyses peuvent être effectuées sur un large éventail de bases de données, notamment les bases de données relationnelles, les partages de fichiers, les environnements Big Data, les entrepôts de données, les référentiels de documents, les applications ERP, les référentiels NoSQL, les solutions SaaS, IaaS, etc., offrant ainsi pour la première fois une véritable vue multiplateforme des données clients.

La corrélation ne nécessite pas de duplication de données ni de création d'entrepôts de données, ce qui permet aux entreprises de disposer d'une vue centralisée des informations d'identification d'un individu sans centraliser les données. La corrélation facilite la recherche d'informations personnelles, et pas seulement. PII, car la découverte repose sur le contexte, ainsi que sur le contenu. Et comme le moteur de corrélation BigID ne cherche pas à associer les types de données de manière préventive, il peut corréler les données dans n'importe quelle langue. La corrélation peut même révéler des relations entre données chiffrées et non chiffrées, aidant ainsi à localiser des données pseudo-identifiables, ce qui est également important pour le RGPD.

Les trois C : corrélation, classification, catalogage

La recherche centrée sur les corrélations n'est pas entièrement nouvelle, bien qu'elle soit inédite pour la découverte de données. Les moteurs de recherche Internet adoptent une approche similaire pour indexer efficacement Internet et faciliter la navigation grâce à un algorithme analogue de pertinence des hyperliens. Les réseaux sociaux exploitent également les graphes de relations pour faciliter la navigation entre les individus. L'application d'approches similaires à l'indexation des données présente de nombreux avantages, allant de l'évolutivité à l'indépendance des données. Mais surtout, la découverte de données centrée sur l'identité de BigID, en instance de brevet, aide les organisations à gérer les cas d'utilisation liés à la confidentialité, tels que ceux introduits par le RGPD. Les entreprises peuvent désormais trouver des informations personnelles et non plus seulement des informations personnelles identifiables. Elles peuvent respecter les droits des personnes concernées, comme le droit à l'oubli. Elles peuvent répondre plus facilement aux questions de souveraineté des données, de résidence, de violation et de consentement. Mais surtout, grâce à BigID, elles ne sont plus obligées de se contenter d'une classification basée sur des modèles. Elles peuvent toujours classer les données. Elles peuvent catalogue données. Et pour la première fois, ils peuvent corréler des données.