La clasificación nunca ha sido fácil: incluso Aristóteles tuvo dificultades con ella. Cuando intentó dividir los organismos en dos grupos (plantas y animales) y luego cada uno de ellos en tres (los primeros incluían arbustos, setos y árboles; los segundos, tierra, aire y agua), no fue suficiente. Si un ave se clasificó como un animal del aire, ¿qué pasa con nuestros queridos amigos los pingüinos y otras aves que no vuelan?
En el mundo natural, se volvió un poco más preciso en el siglo XVIII, cuando Linneo revolucionó la clasificación Con reino, filo, clase, orden, etc., las taxonomías que todos aprendimos en clase de biología. Pero incluso esas definiciones se vuelven confusas cuando los biólogos empiezan a explicar las relaciones entre organismos (las aves, los cocodrilos y los dinosaurios están todos relacionados, después de todo), pero pertenecen a clases muy diferentes.
¿En el mundo de los datos? Las cosas se vuelven aún más complejas.
Clasificación es la clave para comprender sus datos y, en última instancia, lograr que sus datos trabajen para usted: es fundamental para poder reducir el riesgo, tomar decisiones estratégicas, mantener el cumplimiento, acelerar la gobernanza, retener (o reducir) los datos correctos, administrar la privacidad de los datos y proteger sus datos en primer lugar.
La clasificación de datos tradicional falla: los datos no están categorizados ni etiquetados de manera consistente, carecen de contexto, son ruidosos y no son confiables.
Puedes etiquetar y categorizar manualmente tus datos, pero esto lleva tiempo, es propenso a errores y no puedes comprender las relaciones entre los puntos de datos. ¿Forman parte de un conjunto mayor? ¿Parten de una identidad? ¿Son datos regulados?
Tienes tu Clasificación básica basada en expresiones regulares – esencialmente datos que siguen un patrón específico: un número de 7 dígitos que empieza por 312 podría significar un número de teléfono con código de área de Chicago. Pero ¿qué pasa si es...? un número de cuenta en su lugar?
Sin contexto, es difícil clasificar los datos correctamente. Si intentas clasificar la palabra Brooklyn en un conjunto de datos, por ejemplo, ¿cómo sabes si Brooklyn se refiere a...? distrito de la ciudad de Nueva York, el suburbio de Melbourne, Australia o el nombre de una persona específica¿Cómo sabes si esa instancia específica de Brooklyn es pública, privada o de datos restringidos?
¿Qué debe tener en cuenta la clasificación de datos moderna?
En la actual proliferación de datos, la importancia de una clasificación precisa y escalable es fundamental. Las organizaciones necesitan adoptar un enfoque estratificado para sentar las bases que les permitan obtener más provecho de sus datos, ya sea para análisis y fines comerciales estratégicos o para impulsar la seguridad y el cumplimiento normativo de los datos.
Hoy en día, la clasificación de datos moderna debe abordar:
- Precisión: Si hay ruido, si hay demasiados falsos positivos, es mejor empezar desde cero. La clasificación de datos moderna debe ser... preciso para que pueda usarse para todo, desde validación de datos a Aplicación de políticas.
- Patrones y relaciones: Comprender un punto específico en el tiempo es una cosa; comprender el panorama general es otra muy distinta. Ahora es crucial comprender Cómo se relacionan los datos, cómo están conectados¿Forma parte del mismo conjunto de propiedad intelectual? ¿Está relacionado con el mismo individuo?
- Contexto: Añadir contexto marca la diferencia. Con contexto, podrá distinguir si se trata de Brooklyn, la ciudad, o Brooklyn, el nombre. Podrá etiquetar correctamente los datos regulados, aplicar políticas automáticamente y reducir la interferencia y la fricción.
- Personalización: Los datos de cada organización son diferentes: tienen una configuración, un significado y prioridades diferentes. La clasificación de datos debe ser adaptable a los propios datos y debe poder aprender de conjuntos de datos personalizados para aportar valor significativo.
Y ya no es posible hacer esto manualmente, ni al ritmo en que crecen los datos ni al ritmo en que... La definición de “datos sensibles” evolucionaNo se pueden simplemente adoptar las mismas técnicas antiguas y envolverlas en un nuevo envoltorio: es necesario combinar una clasificación de datos probada y comprobada con aprendizaje automático y procesamiento del lenguaje natural (PLN) de vanguardia para lograr una clasificación que funcione con los datos actuales: una clasificación diseñada para los desafíos actuales en cuanto a uso, almacenamiento, tipo y más.
La clasificación moderna de datos va más allá de simplemente asignar un nivel de sensibilidad a los datos o categorizarlos por atributo, tipo o contenido. Combina estas técnicas con contexto aumentado mediante aprendizaje automático, aplica puntuaciones de confianza, integra bibliotecas de políticas y se extiende a todos los silos de datos, de modo que la clasificación a escala es la base del éxito de cualquier iniciativa de datos.
Los datos sin significado son sólo ruido sin ritmo. La clasificación moderna puede cambiar eso – agregando inteligencia procesable para que pueda Haz más con tus datos.