Afin de gérer et de protéger vos données, vous devez savoir non seulement où elles se trouvent, mais aussi à qui elles appartiennent, et quoi C'est vrai. Les approches traditionnelles de classification se concentrent soit sur le marquage manuel, soit sur la correspondance de modèles, gourmande en ressources (et pas toujours fiable). Compte tenu du rythme et de la diversité de la croissance des données – qu'il s'agisse de données stockées dans un référentiel Big Data ou de données transférées entre le stockage cloud et les lacs de données –, ces approches traditionnelles ne sont ni évolutives ni durables, et n'offrent pas le contexte nécessaire pour relever les défis actuels en matière de confidentialité et de sécurité.
C'est pourquoi BigID aborde la classification différemment : non pas en se basant sur ce qui a fonctionné dans le passé, ni en identifiant ce qui est couvert par une législation spécifique, mais avec une approche centrée sur la confidentialité conçue dès le départ.
Cela signifie examiner les données – toutes les données, où qu’il se trouve – et trouver des moyens de classer, d’étiqueter et de connecter des points de données disparates dans des relations, des identités et des profils significatifs.
BigID adopte une approche de découverte approfondie et globale : elle permet de localiser les données où qu'elles se trouvent, puis de les contextualiser et de les corréler pour les classer. Cette approche s'appuie sur des méthodes de classification plus traditionnelles (et les étend) et couvre divers types d'informations sensibles, des données personnelles aux données personnelles. identifiable informations à profil des informations à des informations sensibles plus larges.
Alors, comment BigID s'y prend-il ? Nous proposons plusieurs solutions, toutes spécialement conçues pour l'environnement de données actuel (et son volume et sa diversité).
Expression régulière et correspondance de modèles
La plus traditionnelle des méthodes de classification des données, cette technique associe des expressions et des modèles connus aux informations présentes dans vos données.
Les numéros de carte de crédit MasterCard, par exemple, sont un numéro à seize chiffres qui commence par 5262. Par conséquent, il est tout à fait plausible que toute chaîne entière à seize chiffres qui commence par 5262 puisse être étiquetée comme un numéro de carte de crédit MasterCard.
De même, les identifiants basés sur des modèles tels que les codes postaux, les numéros IBAN, les numéros de sécurité sociale, etc. peuvent tous entrer dans cette catégorie : si vous connaissez déjà la structure des informations que vous essayez de faire correspondre, vous serez en mesure d'identifier des modèles similaires dans un ensemble de données.
La correspondance des modèles traditionnels est souvent définie par la réglementation : si une norme comme PCI-DSS détermine que les organisations doivent être en mesure d'identifier les numéros de carte de crédit, les modèles de numéros de carte de crédit peuvent être rapidement analysés et ajoutés à un ensemble de dictionnaires.
La classification par correspondance de modèles n’est en aucun cas obsolète, mais il est important de répondre à plus que les exigences minimales.
Nous avons ajouté des identifiants de sécurité, par exemple, afin que les organisations puissent identifier les points de données axés sur la sécurité, tels que les clés API, les informations d'identification, les jetons et même les mots de passe courants.
Ainsi, pour certains types de données, la correspondance de modèles fait l’affaire.
Classification contextuelle
Un ensemble de données beaucoup plus délicat à classer est celui qui ne suit pas nécessairement un modèle précis et cohérent : il est difficile d'identifier des « noms familiers », et encore moins de les replacer dans le contexte d'une identité spécifique. Le contexte est également essentiel pour distinguer deux valeurs de données de formats similaires, mais qui constituent deux types d'informations différents (un numéro de sécurité sociale et un numéro de compte, par exemple).
Vos outils de classification traditionnels peuvent-ils corréler un numéro de sécurité sociale spécifique avec un prénom, la couleur des yeux, la géolocalisation et des informations sur l’éducation – tous liés à une seule personne ou identité ?
Non. Mais BigID le peut.
BigID s'appuie sur Apprentissage automatique (ML) et reconnaissance d'entités nommées (NER) non seulement pour identifier automatiquement des informations sensibles telles que les antécédents de vote, l’activité sur les réseaux sociaux ou la taille en se basant sur des inférences ou d’autres techniques, mais également pour relier cette instance spécifique d’informations sensibles à une identité ou à un profil individuel.
La législation sur la confidentialité et la protection des données élargit la définition des informations personnelles (et par conséquent ce que taper des informations doivent être protégées), et vos solutions de classification et de découverte doivent également l'être.
Classificateurs de fichiers par type
À mesure que le volume de données continue de croître, il est important de protéger le bon type d'informations avec les bonnes politiques : les documents juridiques doivent suivre une politique, les documents financiers une autre, et ainsi de suite.
C'est pourquoi nous avons ajouté la classification des fichiers par type à notre arsenal : BigID dispose de modèles d'apprentissage automatique qui classent automatiquement les documents en fonction de leur contenu et de leur structure, sans se limiter à un classificateur de données spécifique. Ces modèles peuvent reconnaître les types de fichiers sensibles : des relevés financiers aux cartes d'embarquement, en passant par les résumés de sortie de l'hôpital. documentation de fusion et d'acquisition et plus encore.
Pour que les organisations s’assurent qu’elles disposent d’une protection des données adéquate, elles doivent d’abord pouvoir l’identifier facilement et avec précision.
Classification basée sur les politiques
Parmi tous les types de classification et de découverte de données, le principal moteur de cette évolution est la réglementation sur la confidentialité et la protection des données. GDPR au CCPA à NYDFS de la HIPAA à la SOX en passant par la GLBA (… la liste est longue), les organisations doivent être en mesure d’identifier certains types de données qui relèvent de réglementations spécifiques et d’adopter des politiques pour gérer et protéger ces données.
BigID intègre des bibliothèques de politiques pour classer, gérer et protéger des types de données spécifiques selon des politiques : des numéros d'identification et mots de passe relevant de la CCPA aux schémas d'identité nationaux du RGPD, en passant par les informations de carte de crédit relevant de la norme PCI. La classification et la gestion des données selon des politiques permettent aux organisations de créer des flux de travail pour chaque type de données, de gérer les accès, de surveiller l'utilisation et de protéger les données sensibles susceptibles d'être attaquées.
Classification n'importe où
La croissance, la valeur et la signification des données évoluent rapidement, et les politiques et réglementations en vigueur commencent à s'y adapter. L'évolution du monde des données s'accompagne d'une augmentation de la valeur des données personnelles, des données sensibles et des politiques visant à les protéger. C'est pourquoi BigID repense la classification : révolutionner la classification des données et découverte avec une approche extensible et centrée sur les données.
Les réglementations relatives à la confidentialité et à la protection des données, comme la loi SHIELD de New York, élargissent non seulement la définition des « informations personnelles », mais ajoutent également des niveaux de classification à leurs recommandations : les organisations doivent pouvoir corréler des données – comme le nom d'utilisateur et l'adresse e-mail associés à un mot de passe ou une question de sécurité – afin d'appliquer les protections de sécurité recommandées. La loi SHIELD, annonciatrice de la prochaine vague de lois sur la notification des violations de données, élargit le type de données couvertes et la définition de ce qui constitue une violation de données.
La réussite de l'automatisation de la protection des données et de la confidentialité repose sur la capacité à identifier, classer, corréler et cataloguer avec précision toutes les informations sensibles, où qu'elles se trouvent. La simple recherche de modèles ne suffit plus : les organisations doivent être capables de corréler les données à une identité, d'établir des relations entre des données sensibles, d'identifier automatiquement les informations sensibles ou personnelles directes et implicites, et d'établir des processus et des politiques pour protéger et gérer ces données.
La découverte, la classification et la corrélation de BigID s'étendent aux données non structurées, structurées et semi-structurées à l'échelle du pétaoctet, et s'appliquent à tout, de Cassandra à Amazon S3 vers CIFS vers Gmail vers Couchbase à Box à Hadoop et partout entre les deux: vous offrant un inventaire unifié de vos données sensibles, le tout en un seul endroit.
Grâce à une approche innovante et axée sur les données, BigID classe intelligemment (et automatiquement) les données et fichiers sensibles de tout type, où qu'ils soient stockés, dans toute votre organisation. Vous souhaitez le voir en action ? Obtenir une démo pour voir comment BigID effectue la classification différemment.