La protection de la vie privée exige de redéfinir ce que sont les données considérées comme personnelles.
Historiquement, les réglementations traitant des données personnelles telles que HIPAA, PCI et Breach Response définissaient les données personnelles par types spécifiques de PII (informations personnelles identifiables)Les données personnelles identifiables étaient exactes et identifiables de manière unique. Cependant, des réglementations comme le RGPD et le CCPA ont élargi la définition de ce qui est personnel pour inclure les données qui sont non seulement personnelles, mais aussi personnelles parce qu'elles se rapportent à une personne.
Par exemple, une date écrite en soi n'est pas personnelle. En revanche, lorsqu'il s'agit d'un anniversaire, elle l'est.
De même, une géolocalisation n'est pas explicitement personnelle. Elle ne l'est que si elle peut être associée à la session web ou mobile d'une personne. Les exemples de données pouvant être considérées comme personnelles sont nombreux : clés de session, adresses IP, cookies, mots de passe, flux de clics, sexe, etc. peuvent être qualifiés de personnels lorsqu'ils sont fournis par ou à propos d'une personne.
Les technologies traditionnelles de découverte de données, qu'elles soient basées sur la classification ou sur le catalogage, n'étaient pas conçues pour identifier les informations personnelles. Basées sur des modèles, elles permettaient parfois de déterminer la nature des données, mais pas leur appartenance à une personne. Cela exige une capacité à comprendre à la fois le contenu et le contexte, et à établir le lien entre une donnée et une personne.
L’une des idées les plus importantes de BigID est que l’identité est importante dans la découverte de données.
BigID reste donc le seul fournisseur conçu dès le départ pour identifier les données personnelles, même contextuellement. Ceci est essentiel pour respecter les exigences du RGPD et du CCPA en matière de droit des données, et également pour localiser d'autres types de données sensibles, sensibles en raison de leur lien avec d'autres données.