El Big Data crea grandes dificultades para encontrar información de identidad. A medida que las organizaciones cambian a interacciones predominantemente en línea con sus clientes, recopilan petabytes de datos sobre individuos a un ritmo cada vez más vertiginoso. Las organizaciones desean responder con rapidez e incluso anticiparse a las necesidades de sus clientes. Esto implica rodearlos cada vez más de servicios digitales en los canales web, móviles, hogar, automóvil, wearables e inteligencia artificial. Datos personales de todo tipo, desde los altamente identificables hasta los de preferencias y geolocalización, se recopilan en los puntos de contacto de las aplicaciones, lo que genera una proliferación y propagación de datos personales que ha resultado imposible rastrear.
Y ese es el problema: los datos no contabilizados son prácticamente desconocidos. Sin embargo, los datos desconocidos no son invisibles; simplemente son vulnerables. Hoy en día, conocer a un cliente requiere que una empresa conozca sus datos. Preservar su fidelidad requiere que una empresa proteja sus datos. Pero no se puede proteger lo que se desconoce, por lo que ahora más que nunca las organizaciones deben conocer los datos de sus clientes. Encontrar datos específicos de clientes en el big data puede ser como intentar encontrar a Wally en un mar de Wallys, con un montón de cosas similares sin capacidad para distinguir quién es quién y qué es qué.
Difícil no significa imposible y el RGPD no significa voluntario

Hubo una época no muy lejana en la que conocer los datos de sus clientes parecía más una carga que un beneficio para muchas empresas. La contabilidad de datos implicaba responsabilidad, y arrojar luz sobre algo demasiado sensible podía revelar sorpresas que, de repente, se convertían en responsabilidad de la empresa. Pero los tiempos han cambiado: las filtraciones de datos son ahora algo cotidiano, lo que aumenta la presión para que las empresas tomen medidas para reducir la vulnerabilidad de los datos de sus clientes. Además, a medida que las empresas compiten en línea, quien mejor conozca al cliente ganará. Si el conocimiento es poder, el conocimiento de los datos es combustible para cohetes.
Pero incluso si los ingresos y la seguridad aún no son motivación suficiente para que una empresa conozca los datos de sus clientes, cada vez más organizaciones se están dando cuenta de que el conocimiento de los datos es obligatorio. En todo el mundo, las nuevas regulaciones de privacidad exigen que las organizaciones sepan qué datos tienen sobre un individuo, y las sanciones por desconocerlo son severas. En ningún lugar se ejemplifica esto mejor que en Europa, donde el derecho a... privacidad Se considera cada vez más un derecho constitucional y el derecho a la privacidad significa un derecho a los datos propios.
Con la introducción del Reglamento General de Protección de Datos (RGPD) de la UE, las organizaciones están legalmente obligadas a proporcionar o eliminar los datos de sus clientes cuando estos lo soliciten. Las sanciones por no hacerlo pueden alcanzar el 41% de los ingresos globales en la UE o incluso el 101% en determinados países. El RGPD consagra el concepto de que las empresas solo son custodios de los datos de consumidores o empleados. Los datos siguen siendo propiedad del ciudadano. Incumplir este estándar puede perjudicar a una empresa. La protección de la privacidad puede no ser suficiente incentivo para que todas las organizaciones encuentren e inventarian sus datos, pero regulaciones como el RGPD sin duda servirán de incentivo para quienes no estén convencidos.
¿Has oído la historia de la aguja y el pajar?

Conocer sus datos de identidad es bueno para los negocios, la seguridad y la privacidad. Además, es cada vez más obligatorio en un número creciente de países. Pero encontrar datos de identidad en el big data ya es difícil, y encontrarlo lo es aún más.
Encontrar ciertos tipos de información personal identificable (PII) no es una tarea revolucionaria. Las empresas llevan años buscando ciertos tipos de PII en sus datos por razones que van desde el marketing hasta la seguridad. Tomemos el ejemplo de un documento nacional de identidad, como el número de la seguridad social. Estos datos son a la vez altamente identificables y altamente sensibles. Además, están protegidos por normativas en muchos sectores. Por ello, muchas organizaciones ya se han embarcado en la tarea de encontrar y catalogar estos datos. Sin embargo, las herramientas para hacerlo dejan mucho que desear. Pueden encontrar números de nueve dígitos en bases de datos, pero no pueden abarcar todas las fuentes de datos. Por lo general, no pueden distinguir entre números de aspecto similar. No pueden proporcionar ninguna visibilidad sobre el uso. Y, quizás lo más importante, no pueden averiguar a quién pertenecen los datos.
Claro que conocer los datos de sus clientes va más allá de saber su número de la seguridad social. Implica conocer su nombre, dirección, preferencias, documentos, geolocalización, dirección IP; todo lo relacionado con ellos o que ellos han hecho. Esto es más difícil. Requiere la capacidad de encontrar todo tipo de datos, a veces sin conocimiento previo, en todo tipo de lugares. Es como encontrar varias agujas en varios pajares. Pero incluso así, puede que no sea suficiente para cumplir con normativas como el RGPD; también es necesario saber qué agujas provienen de qué paquete. Se trata de encontrar lo difícil de encontrar y luego organizarlo por persona o "sujeto de datos".
La rebelión de Atlas

Encontrar la identidad en el Big Data requiere la capacidad de encontrar información de identidad y luego determinar qué información de identidad pertenece a cada identidad. Pero eso no es todo. Para conocer realmente los datos de sus clientes, necesita saber qué son, dónde están, a quién pertenecen, a dónde van y dónde han estado. Si el conocimiento es poder, ¿por qué conformarse con refrescos de cola y bicarbonato de sodio cuando puede tener hidrógeno metálico?
Nuevas herramientas como BigID revolucionan los enfoques tradicionales para la búsqueda, el inventario y el mapeo de datos personales. Eliminan las búsquedas estructuradas basadas en expresiones regulares arcaicas. Se basan en el contexto de identidad para encontrar y ordenar datos de identidad a gran escala. BigID se basa en big data, aprendizaje automático e identidad. correlación Para determinar qué es qué y quién es quién. Su objetivo no es encontrar un solo número de la seguridad social, sino mapear todos los números de la seguridad social y la información de identidad relacionada en un gráfico de identidad. Se trata de construir un atlas: mapas que muestren ubicaciones, mapas que muestren accesos, mapas que muestren residencias, mapas que muestren flujos de datos.
Conocer a sus clientes empieza por conocer sus datos. Pero encontrar a Wally en sus datos requiere un mapa. Herramientas como BigID ayudan a las organizaciones a crear un atlas de datos para mejorar la atención al cliente, la seguridad y la privacidad.