Skip to content
Voir tous les articles

Le rôle de IA, ML, et l'apprentissage profond dans Vie privée

L'apprentissage automatique, l'intelligence artificielle et, désormais, l'apprentissage profond sont devenus si galvaudés qu'ils pourraient être assimilés à de la poudre de perlimpinpin et des incantations magiques. Pourtant, les approches utilisant ces techniques transforment discrètement la façon dont les organisations relèvent leur défi le plus urgent : la compréhension et la protection des données.  

Ce défi peut être succinctement décrit comme la manière dont vous pouvez acquérir au mieux la connaissance des données afin de mieux gérer et protéger les informations.

Connaître ses données est essentiel pour les protéger, car on ne peut protéger ce qu'on ne comprend pas. La connaissance des données est également essentielle pour en tirer des informations, établir un profil de risque et valoriser ses données. Les approches manuelles traditionnelles pour recueillir des renseignements sur les données personnelles collectées et traitées reposaient sur des entretiens et des enquêtes. Ni les entretiens ni les enquêtes ne sont fiables, précis ou évolutifs, surtout à l'ère du Big Data. Les approches automatisées pour interroger les bases de données offrent la promesse d'une connaissance plus détaillée, plus fiable et plus précise des données, notamment si les bonnes mesures sont prises pour aligner le modèle sur les données d'entrée.

Trier, organiser et interpréter des pétaoctets de données numériques n'est pas chose aisée. L'automatisation des techniques de classification basées sur des règles est certes utile, mais elle ne permet pas encore de comprendre le contexte des données. C'est là que l'apprentissage automatique avancé et les approches associées offrent une feuille de route pour une meilleure cartographie et compréhension des données personnelles, fondement d'une protection efficace des données personnelles et de la confidentialité.

Personnes et vie privée

Ironiquement, en matière de confidentialité, l'objectif du ML avancé n'est pas nécessairement de se rapprocher de l'humain en matière de traitement des données. L'IA est généralement associée à la compréhension d'entrées telles que du texte, des interactions et des images, par le biais d'itérations et de rétroactions constantes, afin d'automatiser des actions et des comportements impossibles à distinguer de l'humain. En matière de protection des données et de confidentialité, c'est l'inverse qui se produit : les individus sont incapables de déterminer où se trouvent les données, comment elles sont connectées à d'autres données, comment elles sont utilisées et comment elles sont utilisées, et comment elles sont évaluées.

En matière de confidentialité, l'objectif principal est d'analyser les données en fonction des relations, et non pas seulement de leur similarité, ce qui est impossible pour les humains. Le ML et le Deep Learning offrent un ensemble d'approches applicables à des problématiques spécifiques liées aux données et permettent de construire un modèle durable pour les problèmes de confidentialité et de protection des données qui dépendent du contexte, de la cartographie des relations et des flux de données.  

Aucune technique n’est une solution miracle en soi. Cependant, en combinant des composants d’apprentissage automatique de manière « adaptée à l’objectif » – qu’il s’agisse de classificateurs d’arbres aléatoires pour améliorer la précision, la corrélation et le raisonnement ; de seuils de probabilité pour évaluer les relations entre les données ; de clustering pour l’échantillonnage prédictif et l’analyse comparative de la distribution des données personnelles ; et de réseaux neuronaux pour établir l’extraction et la résolution des entités, ainsi que la notation de confiance pour équilibrer la précision et le rappel – les entreprises peuvent créer et maintenir une image complète de la confidentialité des données.

L'homme contre la machine

En matière de confidentialité et de protection des données personnelles, les efforts humains se révèlent insuffisants pour trouver, classer ou trier les informations personnelles. La protection de la vie privée repose avant tout sur la compréhension des informations personnelles collectées par une organisation, ainsi que de la manière dont elles sont traitées et utilisées. Cela nécessite un inventaire précis des données personnelles. Les entretiens et les enquêtes ne peuvent établir des inventaires que sur la base de souvenirs, et non d'enregistrements de données réels. Une machine est plus performante que l'homme pour examiner les enregistrements de données d'autres machines.

Pour qu'une machine puisse constituer un inventaire de données, il est nécessaire de pouvoir analyser n'importe quelle source de données et de les classer par type, personne, lieu de résidence et application, qu'elles résident dans une base de données, un partage de fichiers, un entrepôt Big Data ou un service cloud. On parle souvent de constitution d'un inventaire de données, où les données peuvent être organisées selon un pivot différent pour mieux comprendre leur contexte.

C'est là que les approches qui peuvent établir le degré de corrélation entre des valeurs de données largement distribuées, représenter graphiquement les relations de valeurs hautement corrélées par le raisonnement et appliquer des modèles d'apprentissage automatique pour la précision de la classification peuvent relever le défi de la connaissance des données.

Les premières tentatives d'analyse automatisée des données et de leur organisation en un inventaire complet reposaient sur des technologies d'indexation et de recherche de modèles standard. Des outils comme Elasticsearch offrent des moyens simples d'indexer des téraoctets de données et de comparer des informations similaires grâce à divers algorithmes de machine learning.

Bien qu'elles constituent une avancée, ces premières tentatives d'inventaire des données présentent des failles insurmontables. La résolution du problème de saisie des données crée de nouveaux problèmes. Le recours à un entrepôt externe pour l'analyse est peu pratique compte tenu du volume de données que la plupart des organisations hébergent, car cela nécessite de copier de grandes quantités d'informations sensibles vers un stockage secondaire. Cela entraîne également des coûts d'infrastructure considérables pour l'indexation. De plus, cela crée un grave problème de sécurité en centralisant les données sensibles.

Cependant, les problèmes ne se limitent pas aux étapes nécessaires à l'indexation. La valeur des résultats est également limitée. Même un index complet permettra de classer les données par type, mais pas par personne. Fondamentalement, la protection de la vie privée exige de connaître le contexte des personnes ; elle exige de comprendre quelles données sont personnelles et à qui elles appartiennent. Ce qui rend les données personnelles, c'est qu'elles sont contextuellement associées à un individu : c'est-à-dire qu'elles concernent, par définition, cette personne, ou sont produites par cette personne.

Les algorithmes de classification ML naïfs, capables de faire correspondre des modèles, peuvent aider à identifier deux entités similaires, mais ils ne peuvent pas, à eux seuls, établir de corrélation avec une personne pour déterminer si les données constituent des informations personnelles. Cela nécessite un autre type de ML et d'apprentissage profond, non disponible dans des outils standard comme Elasticsearch.

La grande idée de BigID ML

 

La protection de la vie privée et des données personnelles commence par une veille stratégique efficace, capable de comprendre quelles données personnelles une organisation collecte, à qui elles appartiennent et comment elles sont utilisées. On parle parfois d'inventaire des données et d'enregistrement de leur traitement, mais cela va bien au-delà. Cela nécessite la capacité de trouver, classer, corréler, cataloguer et même suivre les données lors de leur collecte et de leur traitement au sein de l'entreprise. Ces tâches ne sont pas simples à mettre en œuvre, et elles sont rendues encore plus difficiles par la complexité et la diversité des lieux et des modes de collecte des données personnelles par les entreprises via leurs applications mobiles, web et IoT.

Tenter de résoudre ces problèmes en itérant sur une seule pièce du puzzle constitue une amélioration sur certains aspects du problème, mais laisse toujours en suspens la question plus large de la connaissance des données par personne ou entité. De plus, toute approche « boîte noire » qui ne permet pas d'interagir avec les scores de confiance, ni d'affiner les méthodologies de corrélation et la précision de la classification, ne pourra jamais faire face à la complexité des parcs de données d'entreprise.

Pour progresser vers la compréhension des interrelations entre les données découvertes et leurs attributs, avec un haut degré de précision et de confiance, dans le contexte des données concernées, sans s'encombrer de bruits inutiles et de faux positifs, un apprentissage automatique spécifique est nécessaire. La découverte, la classification et la corrélation des identités, ainsi que les exigences spécifiques à la confidentialité, comme la vérification du consentement, reposent sur des techniques, des modèles d'apprentissage, des raisonnements et des pondérations d'entrée différents. Cependant, ces éléments doivent s'intégrer dans un modèle cohérent, capable de réagir à une nouvelle saisie, qu'elle soit automatique ou humaine, afin d'assurer une protection efficace de la confidentialité des données.

 

Contenu