Um dos formatos de dados mais difíceis de processar para dados pessoais e sensíveis são os dados não estruturados, como arquivos e e-mails. Os dados não estão bem localizados ou organizados em tabelas e locais específicos, o que dificulta a localização e a identificação de informações sensíveis. Exemplos de armazenamentos de dados não estruturados incluem servidores de arquivos SMB, NFS e CIFS, ou serviços de armazenamento em nuvem como Box, Google Drive e O365. Também podem incluir armazenamentos de objetos IaaS, como AWS S3, GCP Cloud Storage ou Azure Blob. Isso pode se referir a serviços de e-mail e bate-papo como MS Exchange, Google Gmail, MS Outlook, Teams ou Slack. Inclui ainda todos os cantos e recantos dentro do SAP ou Salesforce, onde as organizações armazenam comunicações, arquivos ou mídias. Os dados não estruturados residem em inúmeros locais e, para empresas que buscam encontrar dados pessoais ou informações confidenciais nesses locais, as opções eram poucas.
Antes do BigID, as empresas que desejavam analisar dados não estruturados para encontrar informações sensíveis à privacidade ou segurança precisavam recorrer a ferramentas limitadas, baseadas em abordagens tradicionais de correspondência de padrões para silos específicos de armazenamento de dados não estruturados. Essas ferramentas não tinham escala ou abrangência suficiente para analisar dados além de arquivos e e-mails básicos. As tecnologias estavam estagnadas em 2006, quando muitas delas foram introduzidas, como DLP, Governança de Acesso a Dados e e-Discovery. O BigID repensa completamente a forma como as empresas analisam dados não estruturados em grande escala.
Com a arquitetura de microsserviços do BigID, scanners adicionais podem ser criados dinamicamente para aumentar a escalabilidade do processamento de dados. O aprendizado de máquina (ML) é usado para pré-processar documentos complexos, acelerando a análise e o processamento. A classificação é combinada com correlação, catalogação e análise de cluster para melhor analisar e organizar os dados. As fontes de dados suportadas foram ampliadas com o novo suporte para IaaS, Big Data, SaaS, ERP e muito mais. Os formatos de documentos suportados foram expandidos, indo além de PDF, Office e Google Workspace, para incluir mídia, Parquet, Zip, Orc e outros. Com o BigID, a busca por dados sensíveis de privacidade e segurança em dados não estruturados é completamente repensada para 2020 e além.
