Il est rare de croiser un téléphone à clapet de nos jours, alors que les smartphones sont quasiment omniprésents. Pourtant, dans le domaine de la sécurité des données, où la précision et le contexte sont essentiels, trop de personnes utilisent encore la technologie des téléphones à clapet pour découvrir, comprendre et classer les données personnelles.
À l'ère des téléphones à clapet, la classification était considérée comme un moyen d'atteindre un objectif. En déterminant où étaient stockées les données sensibles grâce à d'interminables ajustements d'expressions régulières et en comparant les nombres bruts d'informations personnelles identifiables correspondantes, les entreprises pouvaient – en théorie – passer d'une ruée paniquée à une concentration sur les sources de données présentant les plus grands risques en matière de sécurité et de conformité.
Mais la classification doit désormais être intégrée à la gestion, à la sécurité et à la confidentialité des données. À l'ère de la confidentialité, l'identité corrélation fait partie intégrante de la valeur, de la pertinence et de l’exactitude de la classification.
Classification moderne : contexte et corrélation
Sans le contexte issu de la corrélation d'identités, les entreprises ignorent quelles données personnelles elles stockent et traitent, et par conséquent, quels sont les risques en matière de confidentialité, de sécurité et de conformité auxquels elles sont confrontées. Comprendre la relation entre les valeurs des données et les identités corrélées avant même l'application de la classification permet d'éviter l'un des défauts fondamentaux de la classification traditionnelle : elle se limite à des données apparemment identiques, mais sans mécanisme de désambiguïsation.
Sans un catalogue de données construit à l’aide de la corrélation d’identité, découverte Avec l'indexation et l'analyse de plusieurs sources de données, les entreprises restent bloquées dans le passé, malgré la prolifération du volume et de l'interconnexion de leurs données personnelles. En intégrant des fonctionnalités de catalogage à la classification, les entreprises acquièrent un niveau de contexte supplémentaire grâce à l'intégration de la compréhension des données personnelles à l'analyse des métadonnées.
De la même manière, la classification qui considère les données de manière isolée perd de sa pertinence, la classification elle-même devrait être considérée comme faisant partie d’une approche plus large qui intègre la classification, la corrélation et le catalogage.
La confidentialité change la donne
Données personnelles – telles que définies par les nouveaux mandats de confidentialité tels que le RGPD de l’UE et le Loi californienne sur la protection des consommateurs – sont sensibles selon qu'elles sont associées ou non à une personne. Les données de localisation en sont un parfait exemple (particulièrement pertinentes à l'ère des smartphones). Les données de localisation ne sont pas propres à une personne, mais elles deviennent personnelles en fonction de leur association avec une personne.
Sans ce contexte télévisuel personnel, la classification héritée ne peut rien vous dire sur ce que sont les données personnelles, même si la technologie peut analyser plus d'un type de source de données ou les agréger dans des silos de données.
Au cours des années qui ont suivi la première vague de violations de données et les exigences PCI-DSS qui ont conduit à l'adoption de la classification par correspondance de modèles, des efforts ont été déployés pour réduire le nombre de faux positifs et, plus récemment, pour utiliser l'apprentissage automatique pour automatiser et affiner la formation RegEx gourmande en ressources.
Ces nouvelles itérations de la même approche vous disent toujours la même chose : fournir des décomptes de données, et non une comptabilité des données, et effectuer une classification grossière au niveau du dossier, et non une comptabilité granulaire au niveau de la valeur des données.
Auparavant, les entreprises ne se souciaient que des cartes de crédit et des numéros de sécurité sociale. Aujourd'hui, elles doivent identifier toutes les données personnelles, même celles qui ne sont personnelles que parce qu'elles concernent une personne ou sont liées à son contexte. C'est un problème majeur de sécurité des identités.
Il y a de l'espoir à l'horizon
Heureusement, il existe désormais une meilleure approche, conçue pour les environnements de données modernes. Tout comme les smartphones ne se limitent pas à la voix et au texte, la classification moderne des données intègre des méthodologies traditionnelles comme les expressions régulières, comme un atout supplémentaire.
Mais plutôt que la classification par correspondance de modèles soit la première et unique étape, l'approche commence par les valeurs de données elles-mêmes, établit si les données sont identifiables de manière unique, le degré de corrélation avec d'autres valeurs de données, détermine à qui ou à quoi les données sont associées, puis applique la classification.
Les résultats de la classification peuvent également être modifiés en fonction de l'interaction avec le modèle d'apprentissage automatique sous-jacent ou par intégration à un glossaire métier. Ces interactions sont intégrées aux modèles d'apprentissage automatique pour améliorer la précision.
Le résultat est un inventaire et une cartographie dynamiques et complets de toutes les données personnelles dans les environnements d'entreprise qui peuvent être découpées, analysées et interprétées par classification pour encadrer les décisions et les processus - plutôt qu'une représentation des dossiers qui clignotent le plus en rouge sur la base d'une supposition éclairée.
Si les données sont personnelles en raison de leur association avec un individu, la classification doit alors être déterminée par cette association et non par les limites de l’outil technologique.
Classification à l'ère de la protection de la vie privée
Une approche axée sur les données nécessite un processus en plusieurs étapes qui peut intégrer et étendre les méthodologies établies et jeter les bases de l’intégration d’outils d’apprentissage automatique pour établir des relations telles que les réseaux neuronaux ou les classificateurs d’arbres aléatoires ainsi que le traitement du langage naturel.
L'analyse des données dans leur intégralité permet d'obtenir une plus grande précision et de découvrir des données personnelles obscures. Pour atteindre ce résultat, l'approche doit comporter plusieurs composantes.
• Une large couverture à travers l'entreprise : non structuré, structuré, semi-structuré, nuage et des applications (« héritées » comme SAP et SaaS comme Salesforce)
• Corrélation et apprentissage automatique pour établir des relations entre les données
• Générer des informations granulaires – Découverte et classification des dossiers, fichiers et objets de données
- Étendre les expressions régulières grâce à l'enrichissement
- Pas de « boîte noire » : Apprentissage supervisé, interaction avec les modèles et intégration du glossaire métier
- Intelligence avancée des données non structurées: Extraction et résolution d'entités basées sur un réseau neuronal pour les « données sombres » dans les sources de données non structurées