Con la llegada de la era de la privacidad y la inminente Reglamento General de Protección de DatosLas organizaciones están empezando a darse cuenta de que confiar en clasificación para el descubrimiento de datos ha llegado a su límite. El RGPD y la privacidad en general se trata de cuyo datos que tienes, no solo qué datos que posee. La privacidad se centra en la identidad; se trata de las personas. Las herramientas de descubrimiento basadas en la clasificación no tienen contexto de identidad y, por lo tanto, no pueden abordar desafíos críticos de privacidad como... derechos del interesadoo encontrar información personal (IP) más allá de las categorías tradicionales de PII. Para afrontar los retos de privacidad de 2018, no tiene sentido depender de la tecnología de la era PCI, desarrollada para encontrar patrones de datos altamente estructurados. Los nuevos problemas requieren nuevos enfoques, y el descubrimiento centrado en la privacidad requiere una correlación centrada en la identidad.
Del contenido al contexto

Centrado en la clasificación descubrimiento de datos Surgieron hace décadas para ayudar a las organizaciones a categorizar datos por tipo y cumplir con los requisitos de cumplimiento normativo emergentes, como PCI e HIPAA. Estas herramientas de descubrimiento centradas en la clasificación se basan en la coincidencia de patrones para categorizar los datos. Invariablemente, la clasificación se basa en variaciones de expresiones regulares para clasificar datos con patrones similares. La mayoría de las herramientas de seguridad modernas con componentes de descubrimiento (como DLP, DRM y DAM) se basan en este tipo de mecanismo de reconocimiento de patrones.
Sin embargo, la clasificación tradicional presenta debilidades inherentes que se acentúan al utilizarse en casos de privacidad como el RGPD. En primer lugar, los enfoques basados en la clasificación carecen de precisión. Para datos bien estructurados, como la información de tarjetas de pago, las herramientas basadas en la clasificación pueden funcionar bien; sin embargo, no podrán distinguir entre diferentes tipos de datos con una apariencia similar. (Por ejemplo, en Estados Unidos, los números de la Seguridad Social y los códigos postales ZIP+4 son números de 9 dígitos, y no es raro almacenarlos sin delimitadores, como guiones). La clasificación se vuelve mucho menos precisa en casos donde los tipos de datos tienen menos características distintivas únicas o no siguen patrones bien definidos.
Además, las herramientas basadas en clasificación no pueden distinguir lo personal de lo que no lo es. Europa define "personal" de forma muy amplia. En pocas palabras, los datos son personales si aparecen en el contexto de un individuo específico. La coincidencia de patrones por sí sola no puede vincular datos generales con una persona o identidad en particular. Carece de conocimiento contextual para determinar que un pronombre o una dirección IP pertenecen a ese individuo. Pueden vincular tipos de datos, pero no datos con una identidad.
Lo más importante es que la clasificación no puede ayudar a responder preguntas sobre los derechos de los interesados. El RGPD es, fundamentalmente, una normativa que consagra los derechos de los ciudadanos de la UE sobre sus datos. Los derechos de los ciudadanos de la UE a acceder, portar, suprimir y rectificar sus datos se están reforzando aún más, más allá de las definiciones y requisitos del RGPD de 1995. 95/46/CE Directiva de Protección de Datos. Para las organizaciones, esto implica tener que rendir cuentas de los datos de cada individuo. Las herramientas de descubrimiento de datos basadas en la clasificación no pueden proporcionar contexto de identidad. Por ello, la privacidad requiere un nuevo enfoque para el descubrimiento de datos basado en la correlación de identidades, y no solo en la clasificación, ya que la privacidad consiste en comprender el contexto de los datos de identidad junto con el contenido.
Cómo ser más inteligente en inteligencia de identidad

BigID ha adoptado un enfoque fundamentalmente diferente para el descubrimiento de datos, basado en la correlación inteligente de identidades. La privacidad se centra en las personas, y para encontrar datos personales es necesario comprender su contexto. Para comprender el contexto de las personas o de la identidad, BigID aprovecha el aprendizaje automático aplicado a los conjuntos de datos existentes del cliente. Este enfoque utiliza datos empresariales existentes para determinar cómo se presenta la información personal en una empresa determinada y cómo se relacionan dichos datos personales con una identidad.
Con BigID, los datos de entrenamiento de la organización (o datos "semilla") pueden distribuirse en diferentes fuentes de datos, y se puede usar cualquier cantidad de conjuntos de datos para iniciar el descubrimiento. Ninguno tiene que ser completo ni exhaustivo. Estas fuentes de datos se utilizan para comprender identificadores, relaciones y distribuciones básicas. BigID aprovecha las propiedades de estos datos para contextualizar información diversa en otros almacenes de datos. Sin necesidad de implementar agentes de software, y con acceso de solo lectura, BigID puede escanear en cualquier número de repositorios estructurados, no estructurados y semiestructurados, mainframes, entornos de nube, Big Data almacenes, y aplicaciones para encontrar datos personales y correlacionarlos automáticamente con una identidad.
Cuando BigID encuentra datos personales desconocidos (es decir, "datos oscuros") que no había encontrado previamente, el ML de BigID correlaciona automáticamente estos datos con una identidad basándose en parámetros como la singularidad, la proximidad, la frecuencia, etc. Este proceso continúa con el análisis de cada fuente de datos adicional para generar gráficos cada vez más completos de los datos de cada persona. Es importante destacar que nunca se copian datos personales al software de BigID, que se ejecuta en el entorno de la empresa. El software de BigID solo conserva una representación gráfica en hash de los datos de cada persona, que puede utilizarse para búsquedas posteriores y para la elaboración de informes sobre los derechos de los interesados.
Fundamentalmente, BigID no se limita a la correlación. Una vez comprendidas las relaciones entre los elementos de datos, estos se clasifican y catalogan automáticamente utilizando el glosario de datos de la organización. Esto significa que los clientes de BigID no tienen que elegir entre correlación y clasificación. Obtienen ambas, además de una forma integral de catalogar los datos para facilitar su análisis. Sin embargo, a diferencia de las herramientas anteriores que solo se centraban en la clasificación, los mapas de datos resultantes incluyen un inventario completo de datos para cada individuo, esencial para satisfacer los requisitos de los derechos de los interesados, como el derecho al olvido del RGPD.
PI, no la PII de tu padre

Comenzar con una correlación inteligente antes de la clasificación ofrece a las organizaciones una ventaja crucial para resolver casos prácticos de privacidad. El derecho personal de acceso, portabilidad, rectificación y supresión ahora es fácil de implementar. Los datos se pueden organizar fácilmente por residencia para el análisis de flujos transfronterizos y violaciones de soberanía. Los registros de consentimiento existentes se pueden correlacionar con los interesados para proporcionar una visión completa del consentimiento en todas las aplicaciones por persona. Los registros de acceso se pueden cruzar con la actividad de datos del usuario para proporcionar una visión detallada del uso de los datos de cada individuo. Se pueden comparar diferentes perfiles de usuario en diferentes almacenes de datos para detectar anomalías y posibles fraudes de cuentas.
Realizar la clasificación tras la correlación también ofrece diversas ventajas operativas únicas. Las herramientas basadas en clasificación suelen estar optimizadas para almacenes de datos específicos, como repositorios estructurados, no estructurados o de Big Data, pero no para todos. Con BigID, se pueden realizar análisis en una amplia gama de almacenes de datos, incluyendo bases de datos relacionales, recursos compartidos de archivos, entornos de Big Data, almacenes de datos, repositorios de documentos, aplicaciones ERP, almacenes NoSQL, SaaS, IaaS, etc., lo que proporciona por primera vez una verdadera visión multiplataforma de los datos del cliente.
La correlación no requiere la duplicación de datos ni la creación de almacenes de datos, lo que garantiza que las empresas puedan tener una visión centralizada de la información de identificación de una persona sin centralizar los datos. La correlación facilita la búsqueda de información personal (PI), y no solo... PII, ya que el descubrimiento se basa tanto en el contexto como en el contenido. Y dado que el motor de correlación de BigID no intenta comparar tipos de datos de forma preventiva, puede correlacionar datos en cualquier lenguaje. La correlación puede incluso revelar relaciones entre datos cifrados y no cifrados, lo que ayuda a localizar datos pseudoidentificables, lo cual también es importante para el RGPD.
Las tres C: correlación, clasificación y catalogación

La búsqueda centrada en la correlación no es completamente nueva, aunque sí lo es para el descubrimiento de datos. Los motores de búsqueda de internet adoptan un enfoque similar para indexar eficientemente internet y facilitar la navegación mediante un algoritmo análogo de relevancia de hipervínculos. Las redes sociales también aprovechan los gráficos de relaciones para facilitar la navegación entre individuos. Aplicar enfoques similares a la indexación de datos ofrece diversas ventajas, que van desde la escalabilidad hasta la independencia de los datos. Pero quizás lo más importante es que el descubrimiento de datos centrado en la identidad de BigID, pendiente de patente, ayuda a las organizaciones a abordar casos prácticos de privacidad como los introducidos por el RGPD. Ahora las empresas pueden encontrar información personal (PI) y no solo información de identificación personal (PII). Pueden abordar los derechos de los interesados, como el derecho al olvido. Pueden responder con mayor facilidad a preguntas sobre soberanía de datos, residencia, vulneración y consentimiento. Pero quizás lo más importante es que, con BigID, no tienen que conformarse únicamente con la clasificación basada en patrones. Siguen pudiendo clasificar datos. catalogar datos. Y por primera vez, pueden correlacionar datos.