Ir al contenido
Ver todas las entradas

El papel de IA, ML, y aprendizaje profundo en Privacidad

El aprendizaje automático, la inteligencia artificial y, ahora, el aprendizaje profundo se han vuelto tan comunes que bien podrían considerarse sinónimo de magia negra y conjuros. Sin embargo, los enfoques que utilizan estas técnicas están transformando silenciosamente la forma en que las organizaciones afrontan su reto más urgente: comprender y proteger los datos.  

Ese desafío se puede describir sucintamente como la mejor manera de lograr conocimiento de los datos para administrar y proteger mejor la información.

Conocer sus datos es esencial para protegerlos, ya que no se puede proteger lo que no se comprende. El conocimiento de los datos también es crucial para obtener información, elaborar perfiles de riesgo y extraer valor de ellos. Los enfoques manuales tradicionales para recopilar información sobre qué datos personales se recopilan y procesan dependían de entrevistas y encuestas. Ni las entrevistas ni las encuestas son fiables, precisas ni escalables, especialmente en la era del Big Data. Los enfoques automatizados para analizar los almacenes de datos prometen mayor detalle, fiabilidad y precisión en el conocimiento de los datos, especialmente si se toman las medidas adecuadas para alinear el modelo con los datos de entrada.

Pero ordenar, organizar y comprender petabytes de detritos digitales no es tarea fácil. La automatización de técnicas de clasificación basadas en reglas ayuda, pero aún resulta insuficiente para comprender el contexto de los datos. Es aquí donde el aprendizaje automático avanzado y los enfoques relacionados ofrecen una hoja de ruta para un mejor mapeo y comprensión de los datos personales, la base de una protección y privacidad eficaces de los datos personales.

Personas y privacidad

Irónicamente, en lo que respecta a los problemas de privacidad, el objetivo del aprendizaje automático avanzado no es necesariamente asemejarse más a un ser humano en cuanto al procesamiento de datos. La IA suele asociarse con la interpretación de entradas como texto, interacciones e imágenes mediante iteración y retroalimentación constantes para impulsar la automatización de acciones y comportamientos indistinguibles de los humanos. En cuanto a los requisitos de protección y privacidad de datos, ocurre lo contrario: las personas no son capaces de juzgar qué datos residen y dónde, determinar cómo se conectan con otros datos, rastrear el uso y los flujos de datos y evaluar el riesgo de los datos.

En materia de privacidad, el objetivo principal es analizar datos basándose en relaciones, y no solo en similitudes, de maneras que los humanos no pueden. El aprendizaje automático (ML) y el aprendizaje profundo ofrecen un conjunto de enfoques que pueden aplicarse a desafíos específicos de datos y a la construcción de un modelo sostenible para problemas de privacidad y protección de datos que dependen del contexto, el mapeo de relaciones y los flujos de datos.  

Ninguna técnica es una solución milagrosa por sí sola; sin embargo, al combinar componentes de aprendizaje automático de maneras que sean "aptas para el propósito" (ya sean clasificadores de árboles aleatorios para mejorar la precisión, la correlación y el razonamiento, umbrales de probabilidad para evaluar las relaciones de datos, agrupamiento para muestreo predictivo y análisis comparativo de la distribución de datos personales, y redes neuronales para establecer la extracción y resolución de entidades, así como puntajes de confianza para equilibrar la precisión y la recuperación), las empresas pueden construir y mantener un panorama completo de la privacidad de los datos.

Hombre contra máquina

En cuanto a la privacidad y la protección de datos personales, los esfuerzos humanos resultan insuficientes para encontrar, clasificar o ordenar información personal. La privacidad depende, ante todo, de comprender qué información personal recopila una organización y cómo se procesa y utiliza. Esto requiere un inventario preciso de datos personales. Las entrevistas y encuestas solo pueden generar inventarios basados en recuerdos, no en registros de datos reales. Una máquina es más capaz que el ser humano a la hora de examinar registros de datos dentro de otras máquinas.

Para que una máquina cree un inventario de datos, es necesario examinar cualquier fuente de datos y clasificarlos por tipo, persona, residencia y aplicación, ya sea que residan en una base de datos, un recurso compartido de archivos, un almacén de Big Data o un servicio en la nube. Esto se suele definir como la creación de un inventario de datos, donde los datos se pueden organizar utilizando un pivote diferente para comprender mejor su contexto.

Aquí es donde los enfoques que pueden establecer el grado de correlación entre valores de datos ampliamente distribuidos, graficar relaciones de valores altamente correlacionados a través del razonamiento y aplicar modelos de aprendizaje automático para la precisión de la clasificación pueden abordar el desafío del conocimiento de los datos.

Los primeros intentos de este tipo de análisis automatizado de datos y su organización en un inventario completo se basaban en tecnologías de indexación y comparación de patrones estándar. Herramientas como Elasticsearch ofrecen métodos sencillos para indexar terabytes de datos y comparar información similar mediante diversos algoritmos de aprendizaje automático.

Si bien representan un avance, estos primeros intentos de inventario de datos presentan deficiencias irreconciliables. Al intentar resolver el problema de la entrada de datos, generan nuevos problemas. Usar un almacén externo para el análisis resulta poco práctico con el volumen de datos que almacenan la mayoría de las organizaciones, ya que requiere copiar grandes cantidades de información confidencial a un almacén secundario. Además, conlleva enormes costos de infraestructura necesarios para la indexación. Además, crea un grave problema de seguridad al centralizar los datos confidenciales en un solo lugar.

Sin embargo, los problemas no se limitan a los pasos necesarios para realizar la indexación. El valor de los hallazgos también es limitado. Incluso un índice completo ayudará a clasificar los datos por tipo, pero no por persona. Fundamentalmente, la privacidad requiere contexto personal; requiere comprender qué datos son personales y a quién pertenecen. Lo que hace que los datos sean personales es que se asocian contextualmente con un individuo: es decir, por definición, se refieren a esa persona o son creados por ella.

Los algoritmos de clasificación de aprendizaje automático ingenuo, capaces de encontrar patrones, pueden ayudar a resolver dos entidades de apariencia similar, pero no pueden, por sí solos, mostrar una correlación con una persona para determinar si los datos constituyen información personal. Esto requiere un tipo diferente de aprendizaje automático y aprendizaje profundo, que no está disponible en herramientas estándar como Elasticsearch.

La gran idea de BigID ML

 

La privacidad y la protección de datos personales comienzan con una inteligencia de datos eficaz que permita comprender qué datos personales recopila una organización, a quién pertenecen y cómo se utilizan. A veces, esto se caracteriza por un inventario de datos y un registro de su procesamiento, pero va más allá. Requiere la capacidad de encontrar, clasificar, correlacionar, catalogar e incluso rastrear los datos a medida que se capturan y procesan en una empresa. Ninguna de estas tareas es fácil de iniciar, y se complican aún más por la complejidad y diversidad de dónde y cómo las empresas recopilan datos sobre las personas en sus aplicaciones móviles, web y del IoT.

Intentar resolver estos problemas iterando sobre una sola pieza del rompecabezas supone una mejora en algunos aspectos del problema, pero aún deja sin resolver la cuestión más amplia del conocimiento de los datos por persona o entidad. Además, cualquier enfoque de caja negra que no permita la interacción con la puntuación de confianza ni el refinamiento de las metodologías de correlación y la precisión de la clasificación, jamás podrá abordar las complejidades de los patrimonios de datos empresariales.

Para avanzar hacia el objetivo de comprender las interrelaciones entre los datos descubiertos y sus atributos con un alto grado de precisión y confianza en el contexto de los datos, sin la carga de ruido innecesario ni falsos positivos, se requiere un aprendizaje automático específico. El descubrimiento de datos, la clasificación, la correlación de identidades, así como los requisitos específicos de privacidad, como la verificación del consentimiento, se basan en diferentes técnicas, modelos de entrenamiento, razonamiento y ponderación de entrada. Sin embargo, estos elementos deben integrarse en un modelo cohesivo capaz de responder a nuevas entradas, ya sean de máquinas o humanas, para ofrecer una protección de la privacidad de los datos efectiva y dinámica.