Skip to content
Voir tous les articles

Décrypter le code des données non structurées : L'approche de BigID en matière de découverte de données

Les formats de données non structurés, comme les fichiers et les e-mails, comptent parmi les plus difficiles à traiter pour les données personnelles et sensibles. Ces données ne sont pas bien situées ni organisées dans des tables et des emplacements spécifiques, ce qui complique la localisation et l'identification des données sensibles. Parmi les exemples de stockages de données non structurées, on peut citer les serveurs de fichiers SMB, NFS et CIFS, ou les stockages de fichiers cloud Box, Google Drive et O365. Il peut également s'agir de stockages d'objets IaaS comme AWS S3, GCP Cloud Storage ou Azure Blob. Il peut s'agir de messageries et de chats comme MS Exchange, Google Gmail, MS Outlook, Teams ou Slack. Il peut également s'agir de tous les recoins de SAP ou Salesforce où les organisations peuvent stocker des communications, des fichiers ou des médias. Les données non structurées résident dans d'innombrables emplacements, et les entreprises souhaitant y trouver des données personnelles ou précieuses n'avaient que peu d'options.

Avant BigID, les entreprises souhaitant analyser des données non structurées pour y trouver des données sensibles en matière de confidentialité ou de sécurité devaient recourir à des outils limités aux approches traditionnelles de correspondance de modèles pour des silos spécifiques de bases de données non structurées. Ces outils manquaient d'évolutivité et de portée pour explorer au-delà des fichiers et des e-mails de base. Ces technologies étaient bloquées en 2006, date de leur introduction, pour nombre d'entre elles, qu'il s'agisse de DLP, de gouvernance de l'accès aux données ou d'e-discovery. BigID repense complètement la façon dont les entreprises analysent les données non structurées à grande échelle.

Grâce à l'architecture microservices de BigID, des scanners supplémentaires peuvent être lancés dynamiquement pour étendre le traitement des données. L'apprentissage automatique (ML) prétraite les documents denses afin d'accélérer leur analyse et leur traitement. La classification est associée à la corrélation, au catalogage et à l'analyse de clusters pour une meilleure analyse et organisation des données. Les sources de données prises en charge sont étendues grâce à la prise en charge des technologies IaaS, Big Data, SaaS, ERP, etc. Les formats de documents pris en charge sont étendus, passant des PDF, Office et Google Productivity aux formats multimédia, Parquet, Zip, Orc, etc. Avec BigID, la recherche de données sensibles, de confidentialité et de sécurité dans les données non structurées est entièrement repensée pour 2020 et au-delà.