Ir al contenido
Ver todas las entradas

Repensando la clasificación de datos Para la nueva era de la privacidad

Hoy en día, cuando los smartphones son prácticamente omnipresentes, es raro encontrar un teléfono plegable. Sin embargo, en el ámbito de la seguridad de datos, donde la precisión y el contexto son cruciales, muchos aún utilizan la tecnología de los teléfonos plegables para descubrir, comprender y clasificar datos personales.

En la era de los teléfonos plegables, la clasificación se concibió como un medio para un fin. Al determinar dónde se almacenaban los datos confidenciales mediante la modificación constante de expresiones regulares y la comparación de los recuentos brutos de información personal identificable (PII) coincidente, las empresas podían, en teoría, pasar de una turbulencia descontrolada a centrarse en las fuentes de datos con mayor riesgo de seguridad y cumplimiento normativo.

Pero ahora la clasificación debe funcionar como un componente integral para la gestión, la seguridad y la privacidad de los datos. En la era de la privacidad, la identidad... correlación es parte integral del valor, la relevancia y la precisión de la clasificación.

Clasificación moderna: contexto y correlación

Sin el contexto derivado de la correlación de identidades, las empresas desconocen qué datos personales almacenan y procesan y, por consiguiente, los riesgos de privacidad, seguridad y cumplimiento normativo a los que se enfrentan. Comprender la relación entre los valores de los datos y las identidades correlacionadas, incluso antes de aplicar la clasificación, evita una de las deficiencias fundamentales de la clasificación tradicional: se estanca en datos aparentemente idénticos, pero sin un mecanismo para desambiguarlos.

Sin un catálogo de datos construido utilizando correlación de identidad, descubrimiento Y la indexación entre fuentes de datos, las empresas se encuentran ancladas en el pasado, incluso ante la proliferación del volumen y la interconexión de sus datos personales. Al incorporar funciones de catalogación con la clasificación, las empresas obtienen un nivel adicional de contexto al integrar la comprensión de los datos personales con el análisis de metadatos.

De la misma manera que la clasificación que considera los datos de forma aislada está perdiendo relevancia, la clasificación en sí misma debería verse como parte de un enfoque más amplio que integre clasificación, correlación y catalogación.

La privacidad cambia las reglas del juego

Datos personales, tal como se definen en los nuevos mandatos de privacidad como el RGPD de la UE y el Ley de Protección al Consumidor de California – es sensible según si está asociado con una persona. Un buen ejemplo son los datos de ubicación (especialmente adecuados en la era de los smartphones). Los datos de ubicación no son exclusivos de cada persona, pero se vuelven personales en función de su asociación con una persona.  

Sin ese contexto de TV personal, la clasificación heredada no puede decirle nada sobre qué son datos personales, incluso si la tecnología puede escanear más de un tipo de fuente de datos o agregarlos en distintos silos de datos.

En los años transcurridos desde la primera ola de violaciones de datos y los requisitos PCI-DSS impulsaron la adopción de la clasificación mediante la comparación de patrones, se han realizado esfuerzos para reducir la cantidad de falsos positivos y, más recientemente, utilizar el aprendizaje automático para automatizar y refinar el entrenamiento de RegEx que requiere muchos recursos.

Estas nuevas iteraciones del mismo enfoque siguen diciendo lo mismo: proporcionar recuentos de datos, no contabilidad de datos, y realizar una clasificación gruesa a nivel de carpeta, no contabilidad granular a nivel de valor de datos.

Antes, las empresas solo tenían que preocuparse por las tarjetas de crédito y los números de la Seguridad Social. Ahora deben identificar todos los datos personales, incluso los que solo son personales por su contexto. Esto representa un grave problema de seguridad de la identidad.

Hay esperanza en el horizonte

Afortunadamente, ahora existe un enfoque mejor, diseñado para los entornos de datos modernos. Así como los teléfonos inteligentes no solo ofrecen voz y texto, la clasificación de datos moderna incorpora metodologías tradicionales, como las expresiones regulares, como una herramienta más.

Pero en lugar de que la clasificación por coincidencia de patrones sea el primer y único paso, el enfoque comienza con los valores de los datos en sí, establece si los datos son identificables de forma única, el grado de correlación con otros valores de datos, determina con quién o con qué están asociados los datos y luego aplica la clasificación.

Los resultados de la clasificación también pueden modificarse mediante la interacción con el modelo de aprendizaje automático subyacente o mediante la integración con un glosario empresarial. Estas interacciones se incorporan a los modelos de aprendizaje automático para iterar sobre las mejoras de precisión.

El resultado es un inventario y un mapeo dinámico y completo de todos los datos personales en los entornos empresariales que se pueden segmentar, cortar e interpretar a través de una clasificación para enmarcar decisiones y procesos; más bien, una representación de qué carpetas son las que muestran más luz roja según una suposición informada.  

Si los datos son personales en función de la asociación con un individuo, entonces la clasificación debe estar impulsada por esa asociación, no por las limitaciones de la herramienta tecnológica.

Clasificación para la era de la privacidad

Un enfoque que priorice los datos requiere un proceso de varios pasos que puede incorporar y ampliar metodologías establecidas y sentar las bases para la integración de herramientas de aprendizaje automático para establecer relaciones como redes neuronales o clasificadores de árboles aleatorios, así como procesamiento del lenguaje natural.

Analizar los datos en su totalidad ofrece mayor precisión y la capacidad de descubrir datos personales oscuros. Para lograr este resultado, el enfoque debe tener múltiples componentes.

• Una amplia cobertura en toda la empresa: no estructurada, estructurada, semiestructurada, nube y aplicaciones ('heredadas' como SAP y SaaS como Salesforce)
• Correlación y aprendizaje automático para establecer relaciones de datos
• Generar información granular: descubrimiento y clasificación de carpetas, archivos y objetos de datos
Ampliar expresiones regulares mediante el enriquecimiento
- Sin 'caja negra': Aprendizaje supervisado, interacción de modelos e integración de glosarios empresariales
- Inteligencia avanzada de datos no estructuradosExtracción y resolución de entidades basadas en redes neuronales para “datos oscuros” en fuentes de datos no estructurados