O Big Data cria grandes problemas para encontrar informações de identidade. À medida que as organizações migram para interações predominantemente online com seus clientes, elas coletam petabytes de dados sobre indivíduos em um ritmo cada vez mais acelerado. As organizações desejam responder rapidamente e até mesmo antecipar as necessidades de seus clientes. Isso significa cercar cada vez mais seus clientes com serviços digitais em canais como web, dispositivos móveis, residenciais, automotivos, wearables e IA. Dados pessoais de todos os tipos, desde altamente identificáveis até preferências e geolocalização, são coletados em pontos de contato de aplicativos, criando uma dispersão e dispersão de dados pessoais que se provou impossível de rastrear.
E esse é o problema: dados não contabilizados são efetivamente desconhecidos. Dados desconhecidos, no entanto, não são invisíveis; são apenas vulneráveis. Conhecer um cliente hoje exige que uma empresa conheça os dados dele. Preservar a fidelidade desse cliente exige que uma empresa proteja os dados dele. Mas não se pode proteger o que não se conhece, e por isso, agora mais do que nunca, as organizações precisam conhecer os dados de seus clientes. Encontrar dados específicos de clientes em big data pode parecer como tentar encontrar o Wally em um mar de Wallys, um monte de coisas parecidas, sem a capacidade de descobrir quem é quem e o que é o quê.
Difícil não significa impossível e GDPR não significa voluntário

Houve um tempo, num passado não muito distante, em que conhecer os dados dos seus clientes parecia mais um fardo do que um benefício para muitas empresas. A contabilidade de dados significava responsabilidade, e lançar luz sobre algo muito sensível poderia revelar surpresas – surpresas que, de repente, se tornam responsabilidade da empresa. Mas os tempos mudaram, as violações de dados são agora uma ocorrência diária, aumentando a pressão para que as empresas tomem medidas para tornar os dados dos seus clientes menos vulneráveis. Além disso, à medida que as empresas competem online, quem melhor conhece o cliente o conquistará. Se conhecimento é poder, o conhecimento de dados é combustível de foguete.
Mas mesmo que a receita e a segurança ainda não sejam motivação suficiente para uma empresa conhecer os dados de seus clientes, cada vez mais as organizações estão se conscientizando da realidade de que o conhecimento de dados é lei. Em todo o mundo, novas regulamentações de privacidade exigem que as organizações saibam quais dados possuem sobre um indivíduo, e as penalidades por desconhecimento são severas. Em nenhum lugar isso é melhor exemplificado do que na Europa, onde o direito de privacidade é cada vez mais visto como um direito constitucional e o direito à privacidade significa um direito aos dados de uma pessoa.
Com a introdução do Regulamento Geral de Proteção de Dados (RGPD) da UE, as organizações são legalmente obrigadas a fornecer ou excluir os dados de seus clientes mediante solicitação. As penalidades por não fazê-lo podem chegar a 4% da receita global em toda a UE ou até 10% em países selecionados. O RGPD consagra o conceito de que as empresas são apenas guardiãs dos dados de consumidores ou funcionários. Os dados permanecem propriedade do cidadão. O não cumprimento desse padrão pode prejudicar uma empresa. A proteção da privacidade pode não ser incentivo suficiente para que todas as organizações encontrem e inventariem seus dados, mas regulamentações como o RGPD certamente servirão de incentivo para aqueles que não estão convencidos.
Você já ouviu aquela da agulha e do palheiro?

Conhecer seus dados de identidade é bom para os negócios, para a segurança e para a privacidade. Cada vez mais, isso também se tornou lei em um número crescente de países ao redor do mundo. Mas encontrar dados de identidade em big data já é difícil, e encontrar uma identidade em big data é ainda mais difícil.
Encontrar certos tipos de PII (informações pessoais identificáveis) não é uma tarefa revolucionária. As empresas vêm se dedicando à busca por certos tipos de PII em seus dados há anos, por motivos que vão do marketing à segurança. Vejamos o exemplo de um documento de identidade nacional, como o número do Seguro Social. Esses dados são altamente identificáveis e sensíveis ao mesmo tempo. Eles também são protegidos por regulamentação em muitos setores. Por esse motivo, muitas organizações já se empenharam em encontrar e catalogar esses dados. Mas as ferramentas para isso deixam muito a desejar. Elas conseguem encontrar números de nove dígitos em bancos de dados, mas não conseguem abranger todas as fontes de dados. Geralmente, não conseguem distinguir entre números de aparência semelhante. Não conseguem fornecer visibilidade sobre o uso. E, talvez o mais importante, não conseguem descobrir a quem os dados pertencem.
É claro que conhecer os dados do seu cliente é mais do que apenas saber o número do seguro social. É saber o nome, o endereço, as preferências, os documentos, a geolocalização, o endereço IP – tudo sobre ele ou por ele. Esta é uma tarefa mais complexa. Exige a capacidade de encontrar todos os tipos de dados – às vezes sem conhecimento prévio – em todos os lugares. É como encontrar várias agulhas em vários palheiros. Mas mesmo assim, isso pode não ser suficiente. Para atender a regulamentações como o GDPR, também é necessário saber quais agulhas vêm de qual pacote. Trata-se de encontrar o que é difícil de encontrar e, em seguida, organizá-lo por pessoa ou "titular dos dados".
Atlas encolheu os ombros

Encontrar identidade em Big Data requer a capacidade de encontrar informações de identidade e, em seguida, descobrir quais informações de identidade pertencem a qual identidade. Mas isso não é tudo. Para realmente conhecer os dados do seu cliente, você precisa saber o que eles são, onde estão, a quem pertencem, para onde estão indo e por onde passaram. Se conhecimento é poder, por que se contentar com refrigerante de cola e bicarbonato de sódio quando você pode ter hidrogênio metálico?
Novas ferramentas como o BigID subvertem as abordagens tradicionais de busca, inventário e mapeamento de dados pessoais. Elas dispensam buscas estruturadas baseadas em expressões regulares arcaicas. Elas se baseiam no contexto de identidade para encontrar e classificar dados de identidade em escala. O BigID se baseia em big data, aprendizado de máquina e identidade. correlação para descobrir o que é o quê e quem é quem. O objetivo não é encontrar um número de previdência social, mas mapear todos os números de previdência social e informações de identidade relacionadas em um gráfico de identidade. Trata-se de construir um Atlas: mapas que mostram locais, mapas que mostram acesso, mapas que mostram residência, mapas que mostram fluxos de dados.
Conhecer seu cliente começa com o conhecimento dos dados dele. Mas encontrar o Waldo nos seus dados exige um mapa. Ferramentas como o BigID ajudam as organizações a criar um atlas de dados para melhor atendimento, segurança e privacidade do cliente.