O Big Data cria grandes problemas para a localização de informações de identidade. À medida que as organizações migram para interações predominantemente online com seus clientes, elas coletam petabytes de dados sobre indivíduos em um ritmo cada vez mais acelerado. As organizações querem responder rapidamente e até mesmo antecipar as necessidades de seus clientes. Isso significa cercá-los cada vez mais com serviços digitais em canais como web, dispositivos móveis, residências, automóveis, wearables e inteligência artificial. Dados pessoais de todos os tipos, desde informações altamente identificáveis até preferências e geolocalização, são coletados em diversos pontos de contato de aplicativos, criando uma dispersão e disseminação de dados pessoais que se mostrou impossível de rastrear ou monitorar.
E esse é o problema: dados não contabilizados são, na prática, desconhecidos. Dados desconhecidos não são invisíveis, porém; são apenas vulneráveis. Conhecer um cliente hoje exige que uma empresa conheça os dados dele. Preservar a fidelidade desse cliente exige que a empresa proteja seus dados. Mas você não pode proteger o que desconhece e, portanto, agora mais do que nunca, as organizações precisam conhecer os dados de seus clientes. Mas encontrar dados específicos de clientes em meio a um big data pode ser como procurar o Wally em um mar de Wallys, uma infinidade de informações semelhantes sem nenhuma possibilidade de distinguir quem é quem e o que é o quê.
Difícil não significa impossível, e o GDPR não significa voluntário.

Houve um tempo, não muito distante, em que conhecer os dados dos clientes parecia mais um fardo do que um benefício para muitas empresas. A contabilização de dados significava responsabilidade, e expor algo muito sensível poderia revelar surpresas — surpresas que, de repente, se tornavam um passivo para a empresa. Mas os tempos mudaram. As violações de dados agora são uma ocorrência diária, aumentando a pressão para que as empresas tomem medidas para tornar os dados de seus clientes menos vulneráveis. Além disso, à medida que as empresas competem online, quem melhor conhece o cliente o conquista. Se conhecimento é poder, conhecimento de dados é combustível para foguetes.
Mas mesmo que receita e segurança ainda não sejam motivação suficiente para uma empresa conhecer os dados de seus clientes, cada vez mais organizações estão se dando conta de que o conhecimento dos dados é lei. Em todo o mundo, novas regulamentações de privacidade exigem que as organizações saibam quais dados possuem sobre um indivíduo, e as penalidades por não saber são severas. Talvez nenhum lugar exemplifique isso melhor do que a Europa, onde o direito à privacidade é uma exigência legal. privacidade é cada vez mais visto como um direito constitucional e o direito à privacidade significa o direito aos próprios dados.
Com a introdução do Regulamento Geral de Proteção de Dados (RGPD) da UE, as organizações são legalmente obrigadas a fornecer ou excluir os dados de seus clientes mediante solicitação destes. As penalidades por descumprimento dessa obrigação podem chegar a 41 TP3T da receita global na UE ou até mesmo 101 TP3T em alguns países. O RGPD consagra o conceito de que as empresas são apenas custodiantes dos dados de consumidores ou funcionários. Os dados permanecem propriedade do cidadão. O não cumprimento desse padrão pode prejudicar seriamente uma empresa. A proteção da privacidade pode não ser incentivo suficiente para que todas as organizações encontrem e inventariem seus dados, mas regulamentações como o RGPD certamente servirão de incentivo para aquelas que ainda não estão convencidas.
Você já ouviu aquela piada da agulha e do palheiro?

Conhecer seus dados de identidade é bom para os negócios, para a segurança e para a privacidade. E, cada vez mais, é também uma exigência legal em um número crescente de países ao redor do mundo. Mas encontrar dados de identidade em meio a grandes volumes de dados já é difícil; encontrar uma identidade em um grande volume de dados é ainda mais difícil.
Encontrar certos tipos de PII (informações de identificação pessoal) não é uma tarefa revolucionária. Empresas vêm buscando esses tipos de PII em seus dados há anos, por motivos que vão desde marketing até segurança. Tomemos como exemplo um documento de identidade nacional, como o número do seguro social. Esses dados são altamente identificáveis e extremamente sensíveis. Além disso, são protegidos por regulamentação em muitos setores. Por essa razão, muitas organizações já se empenharam em encontrar e catalogar esses dados. No entanto, as ferramentas disponíveis deixam muito a desejar. Elas conseguem encontrar números de nove dígitos em bancos de dados, mas não abrangem todas as fontes de dados. Geralmente, não conseguem distinguir entre números semelhantes. Não oferecem visibilidade sobre o uso dos dados. E, talvez o mais importante, não conseguem determinar a quem os dados pertencem.
É claro que conhecer os dados dos seus clientes vai muito além de saber o número do CPF deles. Envolve saber o nome, o endereço, as preferências, os documentos, a geolocalização, o endereço IP – tudo sobre eles ou feito por eles. Isso é mais complexo. Requer a capacidade de encontrar todos os tipos de dados – às vezes sem conhecimento prévio – em todos os tipos de lugares. É como procurar várias agulhas em vários palheiros. Mas mesmo assim, isso pode não ser suficiente, pois para atender a regulamentações como a GDPR, também é necessário saber quais agulhas vêm de qual palheiro. Trata-se de encontrar o que é difícil de encontrar e, em seguida, organizar as informações por pessoa ou “titular dos dados”.
Atlas Shrugged

Encontrar a identidade em Big Data exige a capacidade de localizar informações de identidade e, em seguida, descobrir a qual identidade cada informação pertence. Mas isso não é tudo. Para realmente conhecer os dados do seu cliente, você precisa saber o que são, onde estão, a quem pertencem, para onde vão e por onde passaram. Se conhecimento é poder, por que se contentar com refrigerante e bicarbonato de sódio quando você pode ter hidrogênio metálico?
Novas ferramentas como o BigID revolucionam as abordagens tradicionais de busca, inventário e mapeamento de dados pessoais. Elas dispensam buscas estruturadas baseadas em expressões regulares arcaicas. Em vez disso, utilizam o contexto de identidade para encontrar e classificar dados de identidade em larga escala. O BigID se baseia em big data, aprendizado de máquina e identidade. correlação Para descobrir o que é o quê e quem é quem. Seu objetivo não é encontrar um único número de segurança social, mas mapear todos os números de segurança social e informações de identidade relacionadas em um gráfico de identidade. Trata-se de construir um Atlas: mapas que mostram localizações, mapas que mostram acesso, mapas que mostram residência, mapas que mostram fluxos de dados.
Conhecer o seu cliente começa por conhecer os dados dele. Mas encontrar o Wally nos seus dados requer um mapa. Ferramentas como o BigID ajudam as organizações a construir um atlas de dados para um melhor atendimento ao cliente, maior segurança e maior privacidade do cliente.