La classification n'a jamais été chose aisée : même Aristote s'y est heurté. Lorsqu'il a tenté de diviser les organismes en deux groupes (les plantes et les animaux), puis chacun de ces groupes en trois (les premiers comprenant les arbustes, les haies et les arbres ; les seconds la terre, l'air et l'eau), cela n'a pas suffi. Si un oiseau était classé comme un animal de l'air, qu'en était-il de nos chers amis les pingouins et des autres oiseaux qui ne volent pas ?
Dans le monde naturel, cela est devenu un peu plus précis au 18e siècle, lorsque Linné a révolutionné la classification Avec le règne, l'embranchement, la classe, l'ordre, etc. – les taxonomies que nous avons tous apprises en cours de biologie. Mais même ces définitions deviennent floues lorsque les biologistes commencent à prendre en compte les relations entre les organismes – les oiseaux, les crocodiles et les dinosaures sont tous apparentés, après tout – mais dans des classes très différentes.
Dans le monde des données ? Les choses deviennent encore plus complexes.
Classification est la clé pour comprendre vos données – et finalement faire en sorte que vos données travaillent pour vous : c'est essentiel pour pouvoir réduire les risques, prendre des décisions stratégiques, maintenir la conformité, accélérer la gouvernance, conserver (ou réduire) les bonnes données, gérer la confidentialité des données et protéger vos données en premier lieu.
La classification traditionnelle des données est insuffisante : les données ne sont pas catégorisées et étiquetées de manière cohérente, elles manquent de contexte, elles sont bruyantes et elles ne sont pas fiables.
Vous pouvez étiqueter, étiqueter et catégoriser manuellement vos données, mais cela prend du temps, est sujet aux erreurs et vous empêche de comprendre les relations entre les données. Font-elles partie d'un ensemble plus vaste ? D'une identité ? S'agit-il de données réglementées ?
Vous avez votre classification de base basée sur des expressions régulières – des données qui suivent un modèle précis : un numéro à 7 chiffres commençant par 312 peut correspondre à un numéro de téléphone avec l'indicatif régional de Chicago. Mais qu'en est-il si… un numéro de compte à la place?
Sans contexte, il est difficile de classer correctement les données. Si vous essayez de classer le mot « Brooklyn » dans un ensemble de données, par exemple, comment savoir si ce mot fait référence à la arrondissement de New York, la banlieue de Melbourne, Australie ou le prénom d'une personne spécifique? Comment savez-vous si cette instance particulière de Brooklyn est une donnée publique, privée ou restreinte ?
De quoi la classification moderne des données doit-elle tenir compte ?
Dans le contexte actuel de prolifération des données, une classification précise et évolutive des données est primordiale. Les organisations doivent adopter une approche par couches afin de construire les bases qui leur permettront d'exploiter pleinement leurs données, que ce soit à des fins d'analyse et de stratégie commerciale, ou pour garantir la sécurité et la conformité des données.
De nos jours, la classification moderne des données doit répondre aux besoins suivants :
- Précision : Si le système est bruyant, s'il y a trop de faux positifs, autant repartir de zéro. La classification moderne des données doit être précis afin qu'il puisse être utilisé pour tout, depuis validation des données à application des politiques.
- Schémas et relations : comprendre un point précis dans le temps est une chose, avoir une vue d'ensemble en est une autre. Il est désormais crucial de comprendre comment les données sont liées, comment elles sont connectées: Est-ce que tout cela fait partie du même ensemble de propriété intellectuelle ? Est-ce que tout cela concerne la même personne ?
- Contexte : L'ajout de contexte fait toute la différence. Grâce au contexte, vous saurez si c'est Brooklyn la ville ou Brooklyn le prénom. Vous pourrez étiqueter correctement les données réglementées, appliquer automatiquement les politiques et réduire le bruit et les frictions.
- Personnalisation : Les données de chaque organisation sont différentes : leur configuration, leur signification et leurs priorités sont différentes. La classification des données doit être personnalisable et capable d'apprendre à partir d'ensembles de données personnalisés pour apporter une valeur ajoutée significative.
Et vous ne pouvez plus le faire manuellement, ni au rythme auquel les données augmentent, ni au rythme auquel la définition des « données sensibles » évolueVous ne pouvez pas simplement reprendre les mêmes anciennes techniques et les emballer dans un nouvel emballage : vous devez superposer une classification de données éprouvée avec un ML et un NLP de pointe pour obtenir une classification de données qui fonctionnera avec les données d'aujourd'hui - une classification conçue pour les défis actuels en termes d'utilisation, de stockage, de type, etc.
La classification moderne des données va au-delà de la simple attribution d'un niveau de sensibilité aux données ou de leur catégorisation par attribut, par type ou par contenu. Elle combine ces techniques avec un contexte enrichi par apprentissage automatique, applique des scores de confiance, intègre des bibliothèques de politiques et s'étend à tous les silos de données, faisant ainsi de la classification à grande échelle le fondement de toute initiative de données réussie.
Les données sans signification ne sont que du bruit sans rythme. La classification moderne peut changer cela – ajouter des renseignements exploitables afin que vous puissiez faites-en plus avec vos données.