Ir al contenido
Ver todas las entradas

Descifrando el código de los datos no estructurados: El enfoque de BigID para el descubrimiento de datos

Uno de los formatos de datos más difíciles de procesar para datos personales y sensibles son los formatos de datos no estructurados, como archivos y correos electrónicos. Los datos no están bien ubicados u organizados en tablas y lugares específicos, lo que dificulta la localización e identificación de lo que es sensible. Ejemplos de almacenes de datos no estructurados pueden incluir servidores de archivos SMB, NFS y CIFS, o almacenes de archivos en la nube de Box, Google Drive y O365. También puede incluir almacenes de objetos IaaS como AWS S3 o GCP Cloud Storage o Azure Blob. Podría significar correo y chat como MS Exchange, Google Gmail, MS Outlook y Teams o Slack. También podría incluir todos los rincones y recovecos dentro de SAP o Salesforce donde las organizaciones pueden almacenar comunicaciones, archivos o medios. Los datos no estructurados residen en innumerables lugares y para las empresas que buscan encontrar datos personales o valiosos en esos lugares, las opciones eran pocas.

Antes de BigID, las empresas que querían escanear datos no estructurados para encontrar información confidencial sobre privacidad o seguridad debían recurrir a herramientas que se limitaban a enfoques tradicionales de coincidencia de patrones para silos específicos de almacenamiento de datos no estructurados. Estas herramientas carecían de la escala o el alcance necesarios para analizar más allá de archivos y correos electrónicos básicos. Las tecnologías se estancaron en 2006 cuando se introdujeron muchas de ellas, ya fueran DLP, gobernanza de acceso a datos o e-Discovery. BigID replantea por completo la forma en que las empresas escanean datos no estructurados a escala.

Con la arquitectura de microservicios de BigID, se pueden activar escáneres adicionales dinámicamente para añadir escala lateral al procesamiento de datos. El aprendizaje automático (ML) se utiliza para preprocesar documentos densos y acelerar el análisis y el procesamiento. La clasificación se complementa con la correlación, la catalogación y el análisis de clústeres para un mejor análisis y organización de los datos. Las fuentes de datos compatibles se amplían con la nueva compatibilidad con IaaS, Big Data, SaaS, ERP y más. Los formatos de documentos compatibles se amplían, desde PDF, Office y Google Productivity hasta medios, Parquet, Zip, Orc y más. Con BigID, la búsqueda de datos confidenciales de privacidad y seguridad en datos no estructurados se ha rediseñado por completo para 2020 y años posteriores.