Zum Inhalt springen
Alle Beiträge anzeigen

Den Code unstrukturierter Daten knacken: BigIDs Ansatz zur Datenermittlung

Zu den am schwierigsten zu verarbeitenden Datenformaten für personenbezogene und sensible Daten gehören unstrukturierte Datenformate wie Dateien und E-Mails. Die Daten sind nicht gut in bestimmten Tabellen und an bestimmten Orten angeordnet oder organisiert, was das Auffinden und Identifizieren sensibler Daten erschwert. Beispiele für unstrukturierte Datenspeicher sind SMB-, NFS- und CIFS-Dateiserver oder die Cloud-Dateispeicher Box, Google Drive und O365. Auch IaaS-Objektspeicher wie AWS S3, GCP Cloud Storage oder Azure Blob können dazu gehören. Dazu gehören E-Mail- und Chat-Systeme wie MS Exchange, Google Gmail, MS Outlook, Teams oder Slack. Auch alle Ecken und Winkel von SAP oder Salesforce, in denen Unternehmen Kommunikationen, Dateien oder Medien speichern, können dazu gehören. Unstrukturierte Daten befinden sich an unzähligen Orten, und für Unternehmen, die dort nach personenbezogenen oder wichtigen Daten suchen, gibt es nur wenige Möglichkeiten.

Vor BigID mussten Unternehmen, die unstrukturierte Daten nach datenschutz- oder sicherheitsrelevanten Daten durchsuchen wollten, auf Tools zurückgreifen, die auf veralteten Mustererkennungsmethoden für bestimmte Silos unstrukturierter Datenspeicher beschränkt waren. Den Tools fehlte die Skalierbarkeit oder der Umfang, um über einfache Dateien und E-Mails hinaus zu suchen. Die Technologien steckten im Jahr 2006 fest, als viele von ihnen erstmals eingeführt wurden – sei es DLP, Data Access Governance oder e-Discovery. BigID überdenkt die Art und Weise, wie Unternehmen unstrukturierte Daten in großem Umfang durchsuchen, grundlegend.

Dank der Microservice-Architektur von BigID können zusätzliche Scanner dynamisch hinzugeschaltet werden, um die Datenverarbeitung zu erweitern. Maschinelles Lernen (ML) wird zur Vorverarbeitung komplexer Dokumente eingesetzt, um Analyse und Verarbeitung zu beschleunigen. Klassifizierung wird mit Korrelation, Katalogisierung und Clusteranalyse kombiniert, um Daten besser analysieren und organisieren zu können. Die unterstützten Datenquellen werden durch die neue Unterstützung für IaaS, Big Data, SaaS, ERP und mehr erweitert. Die unterstützten Dokumentformate werden von PDF, Office und Google Productivity auf Medien, Parquet, Zip, Orc und mehr erweitert. Mit BigID wird das Auffinden sensibler Datenschutz- und Sicherheitsdaten in unstrukturierten Daten für 2020 und darüber hinaus grundlegend neu gedacht.