Los datos son la base del negocio digital moderno. Definen cómo los usuarios interactúan con una empresa. Comprender y analizar el contenido del cliente no es, por supuesto, una actividad nueva. Todo el campo del Big Data responde a la necesidad de comprender mejor y anticipar el comportamiento del cliente mediante la comprensión de su huella digital. Sin embargo, con la rápida proliferación de aplicaciones y puntos de contacto digitales, las empresas se enfrentan a una proliferación de datos sin precedentes, lo que dificulta el análisis y, al mismo tiempo, complica... privacidad y protección de datos.
Una imagen vale más que mil palabras

No se puede conocer completamente a un cliente sin conocer sus datos, pero obtener visibilidad de datos de Información Personal (IP) difusos y en constante difusión a veces puede parecer imposible. Los enfoques tradicionales para generar vistas de 360° de los clientes requerían el ensamblaje de almacenes de datos complejos de gestionar y, en última instancia, incompletos. Cada nuevo lago de datos de clientes era simplemente una copia deficiente de los datos que pretendía representar, una imagen parcial que hacía que navegar por él se sintiera como navegar por un pantano.
Las herramientas modernas de gobernanza de datos buscan cubrir parcialmente este vacío, brindando a las organizaciones una visión más clara de lo que tienen, dondequiera que se encuentre. Sin embargo, se ven limitadas por depender de encuestas incompletas o incluso imprecisas para detectar y gestionar la proliferación de datos. Si bien la memoria humana puede plasmarse a la perfección en una obra de arte, no es un insumo fiable para extraer conclusiones científicas de los datos. Una imagen pintada nunca ofrecerá el realismo objetivo de una fotografía, e incluso las palabras más descriptivas nunca pueden visualizar con precisión la realidad de la información personal del cliente que las organizaciones recopilan y procesan.
De lagos y pantanos de datos

El volumen de datos que las empresas recopilan sobre sus clientes hoy en día es enorme y sigue creciendo. Los datos de identidad poseen características únicas que permiten visualizarlos sin necesidad de otro lago de datos, o pantano de datos, según la perspectiva. Cuando los fundadores de Google intentaron simplificar la navegación en algo tan grande como Internet, su objetivo por defecto no fue crear un facsímil más fácil de buscar. En cambio, centraron sus esfuerzos en crear un índice inteligente que mapeara las extensas relaciones entre los punteros de hipervínculo que definen la World Wide Web de direcciones de Internet.
Cuando Facebook entró en escena, también se dieron cuenta de que la clave para abordar los desafíos de rendimiento, escala y contexto que implicaba mapear miles de millones de relaciones humanas entrelazadas residía en elevar el concepto de un gráfico social que articulara el contenido y el contexto de quién y qué interactuaba en su plataforma. Si bien los almacenes de datos aún tienen su lugar en la agregación y el análisis de datos, la esencia de la visualización de las relaciones sociales residía en el gráfico social, al igual que el índice PageRank de Google lo había sido para navegar por el aparente desorden de internet.
Las lecciones aprendidas por Google y Facebook plantean la pregunta de por qué el mapeo del activo más vital que gestiona una organización, los datos de sus clientes, debería ser diferente. Al igual que la web y el grafo social, los datos personales en organizaciones y empresas están conectados por relaciones: pertenecen a un sujeto de datos específico, se almacenan en un país determinado, se accede a ellos mediante una aplicación común, etc. Las herramientas tradicionales de descubrimiento de IP pasan por alto todos estos matices, ya que intentan simplemente encontrar cualquier cosa que parezca un número de la seguridad social o una tarjeta de crédito. Sin embargo, el contexto de la relación es esencial para comprender la IP, protegerla y garantizar el cumplimiento de la privacidad en la era de regulaciones como el RGPD, que exigen un conocimiento completo de los datos de una persona.
Estar consciente estando ahí

Comprender los datos de los clientes requiere una forma eficaz de visualizar su distribución, movimiento y conectividad. Estar presente significa estar al tanto. Esto es vital para las iniciativas de gobernanza de datos. Sin embargo, donde esto realmente impacta es en lo que respecta a la protección de datos y el cumplimiento de la privacidad.
Los esfuerzos anteriores de protección de datos no tuvieron éxito porque operaban sin contexto, lo que a menudo generaba errores inaceptables. Conocer el riesgo de los datos requiere un contexto que implica más información que simplemente si un número tiene 16 dígitos. También requiere la capacidad de desidentificar los datos de forma que se preserve el valor analítico para la organización, a la vez que se protege la privacidad de la persona a la que pertenecen.
De manera similar, las regulaciones de privacidad modernas como el RGPD de la UE exigen un conjunto completo de protecciones que son imposibles de lograr solo con un enfoque de almacenamiento de datos o mediante el uso de una herramienta basada en expresiones regulares de la era PCI para Descubrimiento de información sensibleRequiere contexto en torno a datos como la residencia, el propósito del uso, los requisitos de retención, el consentimiento, el linaje y, por supuesto, la afiliación con una persona específica. Sin esta capacidad de comprender y visualizar el contexto y las relaciones, será imposible cumplir con los requisitos de consentimiento, retención o derecho al olvido.
A medida que las organizaciones intentan comprender los datos de identidad en cientos de petabytes, los enfoques tradicionales de descubrimiento y visualización fracasarán. Soluciones como BigID buscan replantear cómo se descubren y visualizan los Big Identity Data sin añadir complejidad a la gestión de datos ni a la seguridad.