Com o advento da era da privacidade e a iminente Regulamento Geral de Proteção de Dados, as organizações estão começando a perceber que confiar em classificação para descoberta de dados atingiu seu limite. O GDPR e a privacidade em geral são sobre cujo dados que você tem, não apenas o que dados que você possui. A privacidade é centrada na identidade; trata-se de pessoas. Ferramentas de descoberta baseadas em classificação não têm contexto de identidade e, portanto, não conseguem lidar com desafios críticos de privacidade como direitos do titular dos dados, ou encontrar informações pessoais (IP) além das categorias tradicionais de PII. Para atender aos desafios de privacidade de 2018, não faz sentido depender da tecnologia da era PCI, desenvolvida para encontrar padrões de dados altamente estruturados. Novos problemas exigem novas abordagens, e a descoberta centrada na privacidade exige correlação centrada na identidade.
Do conteúdo ao contexto

Centrado na classificação descoberta de dados Surgiram décadas atrás para ajudar organizações a categorizar dados por tipo e atender aos requisitos de conformidade emergentes, como PCI e HIPAA. Essas ferramentas de descoberta centradas em classificação dependem da correspondência de padrões para categorizar os dados. Invariavelmente, a classificação se baseia em algumas variações de Expressões Regulares para encontrar dados com padrões semelhantes em categorias. A maioria das ferramentas de segurança modernas que possuem componentes de descoberta (como DLP, DRM e DAM) baseia-se nesse tipo de mecanismo de reconhecimento de padrões.
No entanto, a classificação tradicional apresenta fragilidades inerentes que se tornam mais evidentes quando utilizada em casos de privacidade como o GDPR. Em primeiro lugar, as abordagens baseadas em classificação carecem de precisão. Para dados bem estruturados, como informações de cartão de pagamento, ferramentas baseadas em classificação podem funcionar bem, porém, não conseguem distinguir entre diferentes tipos de dados com aparência semelhante. (Por exemplo, nos Estados Unidos, números de Seguro Social e códigos postais ZIP+4 são ambos números de 9 dígitos, e não é incomum armazená-los sem delimitadores, como traços.) A classificação se torna muito menos precisa em casos em que os tipos de dados têm menos características distintivas exclusivas ou não seguem padrões bem definidos.
Além disso, ferramentas baseadas em classificação não conseguem distinguir o que é pessoal do que não é. A Europa define "pessoal" de forma muito ampla. Simplificando, os dados são pessoais se aparecem no contexto de um indivíduo específico. A correspondência de padrões por si só não consegue conectar dados gerais a uma pessoa ou identidade específica. Falta-lhe consciência contextual para determinar se um pronome ou endereço IP pertence a esse indivíduo. Elas podem corresponder tipos de dados, mas não dados a uma identidade.
Mais importante ainda, a classificação não pode ajudar a responder a perguntas sobre os direitos dos titulares dos dados. O GDPR é fundamentalmente uma regulamentação que consagra os direitos dos indivíduos sobre dados. Os direitos dos cidadãos da UE de acessar, transferir, apagar e retificar seus dados estão sendo ainda mais fortalecidos, indo além das definições e requisitos da Lei de 1995. 95/46/CE Diretiva de Proteção de Dados. Para as organizações, isso significa ter que contabilizar os dados de cada indivíduo. Ferramentas de descoberta de dados baseadas em classificação não conseguem fornecer contexto de identidade. É por isso que a privacidade exige uma nova abordagem para a descoberta de dados, baseada na correlação de identidade, e não apenas na classificação, pois a privacidade envolve a compreensão do contexto dos dados de identidade, juntamente com o conteúdo.
Ficando Inteligente em Inteligência de Identidade

A BigID adotou uma abordagem fundamentalmente diferente para a descoberta de dados, baseada na correlação inteligente de identidades. Privacidade diz respeito a pessoas, e para encontrar dados pessoais, é preciso entender o contexto delas. Para entender o contexto de pessoas ou identidades, a BigID utiliza o aprendizado de máquina aplicado aos conjuntos de dados existentes do cliente. Essa abordagem utiliza dados corporativos existentes para determinar a aparência das informações pessoais em uma determinada empresa e como esses dados pessoais estão conectados a uma identidade.
Com o BigID, os dados de treinamento da organização (ou dados "seed") podem ser distribuídos entre diferentes fontes de dados, e qualquer número de conjuntos de dados pode ser usado para iniciar a descoberta. Nenhum precisa ser completo ou abrangente. Essas fontes de dados são usadas para entender identificadores, relacionamentos e distribuições básicos. O BigID então aproveita as propriedades desses dados para contextualizar diversas informações em outros repositórios de dados. Sem exigir a implantação de agentes de software e tendo recebido apenas acesso de "leitura", o BigID pode escanear em qualquer número de repositórios estruturados, não estruturados e semiestruturados, mainframes, ambientes de nuvem, Big Data armazéns, e aplicativos para encontrar dados pessoais e correlacioná-los automaticamente a uma identidade.
Quando o BigID encontra dados pessoais desconhecidos (ou seja, "dados obscuros") que não havia encontrado anteriormente, o BigID ML correlaciona automaticamente esses dados a uma identidade com base em parâmetros como exclusividade, proximidade, frequência, etc. Esse processo continua com varreduras de cada fonte de dados adicional para construir gráficos cada vez mais completos dos acervos de dados de cada pessoa. É importante ressaltar que nenhum dado pessoal é copiado para o software BigID em execução no ambiente da empresa. O software BigID retém apenas uma representação gráfica com hash dos dados de cada pessoa, que pode ser usada para pesquisas subsequentes e relatórios de direitos do titular dos dados.
Fundamentalmente, o BigID não se limita à correlação. Uma vez compreendidas as relações entre os elementos de dados, os dados são classificados e catalogados automaticamente usando o glossário de dados da própria organização. Isso significa que os clientes do BigID não precisam escolher entre correlação e classificação. Eles obtêm ambas, além de uma maneira abrangente de catalogar dados para facilitar a análise. No entanto, diferentemente das ferramentas mais antigas, que apenas permitiam classificação, os mapas de dados resultantes incluem um inventário completo de dados para cada indivíduo – essencial para atender aos requisitos de direitos do titular dos dados, como o direito ao esquecimento previsto no GDPR.
PI, não as PII do seu pai

Começar com a correlação inteligente antes da classificação oferece às organizações uma vantagem crucial na resolução de casos de uso de privacidade. O direito pessoal de acesso, portabilidade, retificação e apagamento agora se torna simples de operacionalizar. Os dados podem ser facilmente organizados por residência para análise de fluxo transfronteiriço e violações de soberania. Os registros de consentimento existentes podem ser correlacionados aos titulares dos dados, a fim de fornecer uma visão abrangente do consentimento em todos os aplicativos por pessoa. Os registros de acesso podem ser referenciados de forma cruzada com a atividade de dados do usuário, a fim de fornecer uma visão detalhada do uso dos dados de qualquer indivíduo. Diferentes perfis de usuário podem ser comparados em diferentes repositórios de dados, a fim de detectar anomalias e possíveis fraudes em contas.
A realização de classificação após a correlação também oferece uma série de vantagens operacionais exclusivas. Ferramentas baseadas em classificação tendem a ser otimizadas para repositórios de dados específicos, como repositórios estruturados, não estruturados ou de Big Data, mas não para todos. Com o BigID, as varreduras podem ser realizadas em uma ampla gama de repositórios de dados, incluindo bancos de dados relacionais, compartilhamentos de arquivos, ambientes de Big Data, data warehouses, repositórios de documentos, aplicativos ERP, repositórios NoSQL, SaaS, IaaS e muito mais, proporcionando pela primeira vez uma verdadeira visão multiplataforma dos dados do cliente.
A correlação não requer a duplicação de dados ou a criação de data warehouses, garantindo que as empresas possam ter uma visão centralizada das informações de identificação de um indivíduo sem centralizar os dados. A correlação facilita a busca por informações pessoais (PI), e não apenas PII, já que a descoberta se baseia no contexto, além do conteúdo. E como o mecanismo de correlação BigID não tenta corresponder tipos de dados preventivamente, ele pode correlacionar dados em qualquer idioma. A correlação pode até mesmo revelar relações entre dados criptografados e não criptografados, ajudando a localizar dados pseudoidentificáveis, o que também é importante para o GDPR.
Os três C's: Correlação, Classificação, Catalogação

A busca centrada em correlação não é totalmente nova, embora seja inédita para a descoberta de dados. Os mecanismos de busca da internet adotam uma abordagem não totalmente diferente para indexar a internet de forma eficiente e facilitar a navegação, usando um algoritmo de relevância de hiperlink análogo. As redes sociais também utilizam gráficos de relacionamento para ajudar a navegar pelas conexões entre indivíduos. A aplicação de abordagens semelhantes à indexação de dados traz uma série de vantagens, que vão da escala à independência de dados. Mas talvez o mais importante seja que a descoberta de dados centrada em identidade do BigID, com patente pendente, ajuda as organizações a lidar com casos de uso de privacidade como os introduzidos pelo GDPR. Agora, as empresas podem encontrar informações pessoais (PI) e não apenas informações pessoais (PII). Elas podem abordar os direitos dos titulares dos dados, como o direito de ser esquecido. Elas podem responder a perguntas sobre soberania, residência, violação e consentimento de dados com mais facilidade. Mas talvez o mais importante seja que, usando o BigID, elas não precisam se contentar apenas com a classificação baseada em padrões. Elas ainda podem classificar dados. Elas podem catálogo dados. E pela primeira vez, eles podem correlacionar dados.