Plus que 2,5 quintillions d'octets de données Des données sont créées chaque jour et, pour la plupart, ne sont jamais supprimées. Elles circulent entre plusieurs unités opérationnelles et de nombreux systèmes, sous forme de données structurées et non structurées, et vers des applications métier. Les organisations construisent des lacs et des entrepôts de données à des fins de business intelligence et d'analyse, contenant des centaines de milliers de tables et d'éléments de données comportant des milliers de colonnes. Certaines sont générées automatiquement, d'autres sont dérivées d'autres données de base.
Il s'agit d'une quantité considérable de données, et les entreprises peinent à suivre le rythme. La plupart des grandes entreprises ne connaissent pas toutes les données qu'elles collectent au sein de leur organisation ni leur emplacement de stockage. Les données passent d'un actif à un passif.
Cela devra changer, car les enjeux n'ont jamais été aussi élevés. De nouvelles réglementations sur la protection de la vie privée dans l'UE, Californie Partout dans le monde, les organisations doivent connaître l'ensemble des données qu'elles stockent et leur emplacement. Par exemple, les entreprises doivent pouvoir retrouver toutes les données des citoyens européens pour se conformer à la législation. GDPRIls doivent pouvoir trouver des informations sur les mineurs et, sur demande, les supprimer. Comment y parvenir lorsque l'on dispose de pétaoctets de données ? En cas de violation de données, comment savoir à qui les données ont été volées ? Comment respecter la vie privée de ses clients si l'on ne dispose pas d'une comptabilité précise de toutes les données que l'on stocke ?
Les outils traditionnels de découverte de données ne sont pas d’une grande aide lorsqu’il s’agit de recherche de PI/PII Résidant dans le BigData, ils doivent diffuser les données en continu pour les analyser, ce qui n'est pas pratique compte tenu des volumes importants de données dont disposent actuellement les organisations. Ils ne peuvent trouver que des informations identifiables, comme le numéro de sécurité sociale ou le numéro de téléphone, mais pas d'informations personnelles contextuelles comme la date de naissance. Ils ne peuvent pas contribuer à la protection des droits des personnes concernées ; ils indiquent uniquement le type de données (classification), mais ne peuvent pas identifier l'identité des personnes concernées, afin de les signaler aux personnes concernées ou de les supprimer. De plus, leur assistance est limitée. différentes sources de donnéesLorsqu'une donnée doit être supprimée, elle doit l'être partout, que ce soit dans Hadoop, Snowflake, AWS EMR, SAP HANA, Cassandra ou MongoDB Atlas, entre autres référentiels. Avec l'utilisation de l'analyse par IA et de multiples canaux d'entrée, les données réapparaissent, ce qui nécessite une validation continue de la suppression.
La solution BigID – Big Data Native et Entity Centric

BigID comble ces lacunes avec l'offre la plus complète, permettant aux organisations de trouver et de gérer toutes leurs données, quel que soit l'endroit où elles sont stockées, leur type et leur format.
La couverture la plus complète – La découverte et la classification des données basées sur l'apprentissage automatique couvrent un vaste ensemble de référentiels de Big Data : Hadoop, Hive, HBase, Flocon de neigeAWS Redshift, AWS EMR, AWS DynamoDB, Cassandra, CouchBase, MongoDB, SAP HANA, ElasticSearch et Redis. Au-delà du Big Data, BigID prend en charge les fichiers non structurés des partages Windows, Exchange, GDrive, Box, AWS S3, Azure Storage, NetApp et EMC, entre autres. De plus, toutes les principales applications métier sont prises en charge. Tandis que les applications métier alimentent et consomment des données provenant de référentiels Big Data, BigID peut analyser ces systèmes pour fournir une vue d'ensemble complète des données. BigID s'intègre à Collibra, ASG, SAP, SFDC de Salesforce. Microsoft, Ionique, Immuta, ServiceNow, NetSuite, Journée de travail, Zendesk, Jira, ServiceNow, SurveyMonkey et autres.
Natif du Big Data – BigID offre une flexibilité optimale et s'adapte à différents environnements. Il s'exécute nativement dans des environnements Big Data comme MapReduce, ou sous forme de fonctions définies par l'utilisateur dans des entrepôts de données, exploitant leurs capacités de traitement parallèle pour exécuter des analyses à grande échelle sans avoir à transférer les données hors de l'entrepôt. Son architecture cloud native permet le déploiement de BigID dans n'importe quel environnement Kubernetes, avec une mise à l'échelle latérale automatisée prenant en charge les déploiements hybrides, sur site comme dans le cloud. L'échantillonnage intelligent, augmenté par l'IA, fournit des résultats précis en auditant des pétaoctets de données, en exploitant l'IA pour réduire les faux positifs et les faux négatifs, et en fournissant des indicateurs de qualité des données qui facilitent la gestion de la qualité des données à grande échelle.
Corrélation centrée sur l'entité – La corrélation d'identité basée sur le Machine Learning permet de retrouver toutes les données d'un individu spécifique dans toutes les sources de données avec une précision extrêmement élevée et mesurable. Cela permet l'opérationnalisation et l'automatisation des demandes des personnes concernées. Les fonctionnalités de conformité valident et envoient des alertes en continu lorsque les données d'une personne ayant demandé leur suppression réapparaissent, et les propriétaires des données sont informés de la découverte de nouveaux ensembles de données. BigID veille au respect du consentement et vérifie que les personnes dont les données ont été trouvées dans l'entrepôt de données ont réellement donné leur consentement.
De plus, en cas de violation, BigID peut vous indiquer quelles données ont été impactées.
Découverte d'IP augmentée par l'IA – Les organisations peuvent trouver rapidement et facilement les données exactes qu'elles recherchent. L'échantillonnage intelligent, augmenté par l'IA, fournit des résultats précis en analysant des pétaoctets de données. La découverte pilotée par ML permet de découvrir toutes les données corrélées à un individu, et pas seulement les données sensibles en elles-mêmes. Cela permet de retrouver toutes les transactions d'un utilisateur, ses itinéraires, sa date de naissance, son sexe, sa religion, etc.
Dans le contexte réglementaire actuel, les organisations ne peuvent se permettre de négliger leurs données. Elles doivent comprendre précisément de quelles données elles disposent et adopter pour cela une approche globale et intégrée. Grâce à BigID, elles sont en mesure de se conformer aux réglementations, de protéger leurs données et de mieux protéger leur vie privée.