Os dados são essenciais para os negócios digitais modernos. Eles definem como os usuários se envolvem e interagem com uma empresa. Compreender e analisar o conteúdo do cliente não é, obviamente, uma novidade. Todo o campo do Big Data é uma resposta à necessidade de entender e antecipar melhor o comportamento do cliente, compreendendo os rastros digitais que ele deixa. No entanto, com a rápida proliferação de aplicativos e pontos de contato digitais, as empresas enfrentam uma expansão de dados sem precedentes, o que dificulta a análise e, ao mesmo tempo, complica a sua implementação. privacidade e proteção de dados.
Uma imagem vale mais que mil palavras.

Você não consegue conhecer completamente seu cliente sem conhecer seus dados, mas obter visibilidade em dados de Informações Pessoais (IP) dispersos e em constante disseminação pode, às vezes, parecer impossível. As abordagens tradicionais para construir visões de 360° dos clientes exigiam a montagem de data warehouses complexos de gerenciar e, em última análise, incompletos. Cada novo data lake para informações de clientes era apenas uma pálida imitação dos dados que pretendia representar, fornecendo apenas uma imagem parcial e tornando a navegação nesse data lake semelhante a atravessar um pântano.
As ferramentas modernas de governança de dados visam preencher parcialmente essa lacuna, oferecendo às organizações uma visão mais clara do que possuem, independentemente de onde os dados estejam armazenados. No entanto, elas são limitadas por dependerem de pesquisas incompletas ou mesmo imprecisas para identificar e gerenciar a dispersão de dados. Embora a memória humana possa se traduzir belamente em uma obra de arte, ela não é uma fonte confiável para extrair conhecimento científico dos dados. Uma pintura jamais oferecerá o realismo objetivo de uma fotografia, e nem mesmo as palavras mais descritivas conseguirão visualizar com precisão a realidade das informações pessoais dos clientes que as organizações coletam e processam.
De lagos de dados e pântanos de dados

O volume de dados que as empresas coletam sobre seus clientes hoje é enorme e continua crescendo. Os dados de identidade possuem características únicas que tornam possível visualizá-los sem a necessidade de mais um data lake, ou pântano de dados, dependendo da perspectiva. Quando os fundadores do Google tentaram simplificar a navegação em algo tão vasto quanto a internet, sua primeira opção não foi criar uma réplica mais fácil de pesquisar. Em vez disso, concentraram seus esforços na construção de um índice inteligente que mapeasse as relações complexas entre os hiperlinks que definem a World Wide Web de endereços da internet.
Quando o Facebook surgiu, percebeu também que o segredo para lidar com os desafios de desempenho, escala e contexto ao mapear bilhões de relações humanas interligadas era elevar o conceito de um grafo social que articulasse o conteúdo e o contexto de quem e o que interagia em sua plataforma. Certamente, bancos de dados, repositórios e repositórios de dados ainda têm seu lugar na agregação e análise de dados, mas a essência da visualização das relações sociais era o grafo social, assim como o índice PageRank do Google havia sido para navegar pela aparente desordem da internet.
As lições aprendidas pelo Google e pelo Facebook levantam a questão de por que o mapeamento do ativo mais vital que uma organização gerencia, os dados de seus clientes, deveria ser diferente. Assim como a Web e a Rede Social, os dados pessoais em organizações e empresas estão conectados por relacionamentos: os dados pertencem a um titular específico, são armazenados em um determinado país, são acessados por um aplicativo comum, etc. As ferramentas tradicionais de descoberta de informações pessoais ignoram todas essas nuances, pois tentam encontrar apenas qualquer coisa que se pareça com um número de seguro social ou com um cartão de crédito. No entanto, o contexto do relacionamento é essencial para entender as informações pessoais, protegê-las e garantir a conformidade com a privacidade na era de regulamentações como o GDPR, que exigem conhecimento completo dos dados de uma pessoa.
Estar consciente estando presente

Compreender os dados dos clientes exige uma forma eficaz de mapear visualmente sua distribuição, movimentação e conectividade. Estar presente significa estar ciente. Isso é vital para os esforços em torno da governança de dados. No entanto, a importância disso reside principalmente na proteção de dados e na conformidade com a privacidade.
Os esforços anteriores em proteção de dados foram malsucedidos porque operavam sem contexto, muitas vezes gerando erros inaceitáveis. Conhecer o risco dos dados exige contexto, o que envolve mais informações do que simplesmente saber se um número tem 16 dígitos. Também exige a capacidade de anonimizar os dados de forma a preservar o valor analítico para a organização, protegendo, ao mesmo tempo, a privacidade da pessoa a quem os dados pertencem.
Da mesma forma, regulamentações modernas de privacidade, como o GDPR da UE, exigem um conjunto completo de proteções que são impossíveis de alcançar apenas com uma abordagem de data warehouse ou usando uma ferramenta baseada em expressões regulares da era PCI. descobrir informações confidenciaisIsso exige contexto em torno dos dados, como residência, finalidade de uso, requisitos de retenção, consentimento, linhagem e, claro, vínculo com uma pessoa específica. Sem essa capacidade de compreender e visualizar o contexto e os relacionamentos, será impossível cumprir os requisitos relativos ao consentimento, à retenção ou ao direito ao esquecimento.
À medida que as organizações tentam compreender dados de identidade em centenas de petabytes, as abordagens tradicionais de descoberta e visualização tornam-se ineficazes. Soluções como o BigID visam repensar a forma como os Big Data de Identidade são descobertos e visualizados, sem adicionar novas complexidades de gestão de dados ou segurança.