Pular para o conteúdo

Correlação versus classificação: Reimaginando a descoberta de dados na era do GDPR

Com o advento da era da privacidade e a iminente Regulamento Geral de Proteção de Dados, as organizações estão começando a perceber que depender de Classificação para descoberta de dados atingiu seu limite. O GDPR, e a privacidade de forma mais ampla, trata de cujo dados que você possui, não apenas o que Os dados que você possui. A privacidade centra-se na identidade; trata-se de pessoas. As ferramentas de descoberta baseadas em classificação não têm contexto de identidade e, portanto, não conseguem abordar desafios críticos de privacidade como direitos do titular dos dadosOu seja, encontrar informações pessoais (IP) além das categorias tradicionais de informações pessoais identificáveis (IPI). Para atender aos desafios de privacidade de 2018, não faz sentido depender da tecnologia da era PCI, desenvolvida para encontrar padrões de dados altamente estruturados. Novos problemas exigem novas abordagens, e a descoberta centrada na privacidade requer correlação centrada na identidade.

Do conteúdo ao contexto

 

Centrado na classificação descoberta de dados Surgiram décadas atrás para ajudar as organizações a categorizar dados por tipo e a atender aos requisitos de conformidade emergentes na época, como PCI e HIPAA. Essas ferramentas de descoberta centradas em classificação dependem da correspondência de padrões para categorizar os dados. Invariavelmente, a classificação se baseia em alguma variação de Expressões Regulares para encontrar dados com padrões semelhantes e agrupá-los em categorias. A maioria das ferramentas de segurança modernas que possuem componentes de descoberta (como DLP, DRM e DAM) são baseadas nesse tipo de mecanismo de reconhecimento de padrões.

No entanto, a classificação tradicional apresenta fragilidades inerentes que se tornam mais evidentes quando aplicada a casos de privacidade como o GDPR. Em primeiro lugar, as abordagens baseadas em classificação carecem de precisão. Para dados bem estruturados, como informações de cartões de pagamento, as ferramentas de classificação podem funcionar bem; contudo, não serão capazes de distinguir entre diferentes tipos de dados com aparência semelhante. (Por exemplo, nos Estados Unidos, os números do Seguro Social e os códigos postais ZIP+4 são ambos números de 9 dígitos, e não é incomum armazená-los sem delimitadores, como hífens.) A classificação torna-se muito menos precisa em casos onde os tipos de dados têm menos características distintivas únicas ou não seguem padrões bem definidos.

Além disso, as ferramentas baseadas em classificação não conseguem distinguir o que é pessoal do que não é. A Europa define "pessoal" de forma muito ampla. Simplificando, os dados são pessoais se aparecerem no contexto de um indivíduo específico. A correspondência de padrões por si só não consegue conectar dados gerais a uma pessoa ou identidade em particular. Ela carece de contexto para determinar que um pronome ou um endereço IP pertence a esse indivíduo. Essas ferramentas podem relacionar tipos de dados, mas não dados a uma identidade.

Mais importante ainda, a classificação não ajuda a responder a questões relativas aos direitos dos titulares dos dados. O RGPD é fundamentalmente um regulamento que consagra os direitos dos indivíduos relativamente aos seus dados. Os direitos dos cidadãos da UE ao acesso, portabilidade, eliminação e retificação dos seus dados estão a ser ainda mais reforçados, indo muito além das definições e requisitos da lei de 1995. 95/46/CE Diretiva de Proteção de Dados. Para as organizações, isso significa ter que prestar contas dos dados de cada indivíduo. As ferramentas de descoberta de dados baseadas em classificação não conseguem fornecer o contexto de identidade. É por isso que a privacidade exige uma nova abordagem para a descoberta de dados, fundamentada na correlação de identidade, e não apenas na classificação, pois a privacidade consiste em compreender o contexto dos dados de identidade juntamente com o conteúdo.

Entendendo a Inteligência de Identidade

A BigID adotou uma abordagem fundamentalmente diferente para a descoberta de dados, baseada na correlação inteligente de identidades. Privacidade diz respeito a pessoas, e para encontrar dados pessoais é preciso compreender o contexto dessas pessoas. Para entender o contexto das pessoas ou das identidades, a BigID utiliza aprendizado de máquina aplicado aos conjuntos de dados existentes dos clientes. Essa abordagem usa dados corporativos existentes para determinar como as informações pessoais se apresentam em uma determinada empresa e como esses dados pessoais estão conectados a uma identidade.

Com o BigID, os dados de treinamento da organização (ou dados "iniciais") podem ser distribuídos por diferentes fontes de dados, e qualquer número de conjuntos de dados pode ser usado para iniciar a descoberta. Nenhum deles precisa ser completo ou abrangente. Essas fontes de dados são usadas para entender identificadores básicos, relacionamentos e distribuições. O BigID então aproveita as propriedades desses dados para contextualizar várias informações em outros repositórios de dados. Sem exigir a implantação de agentes de software e tendo recebido apenas acesso de "leitura", o BigID pode digitalização em qualquer número de repositórios estruturados, não estruturados e semiestruturados, mainframes, ambientes de nuvem, Big Data armazénse aplicações para encontrar dados pessoais e correlacioná-los automaticamente a uma identidade.

Quando a BigID encontra dados pessoais desconhecidos (ou seja, "dados ocultos") que não havia encontrado anteriormente, o sistema de aprendizado de máquina (ML) da BigID correlaciona automaticamente esses dados a uma identidade com base em parâmetros como unicidade, proximidade, frequência, etc. Esse processo continua com varreduras de cada fonte de dados adicional para construir grafos cada vez mais ricos dos dados de cada pessoa. É importante ressaltar que nenhum dado pessoal é copiado para o software BigID em execução no ambiente da empresa. O software BigID retém apenas uma representação gráfica (hash) dos dados de cada pessoa, que pode ser usada para buscas subsequentes e para relatórios sobre os direitos do titular dos dados.

Fundamentalmente, o BigID não se limita à correlação. Uma vez compreendidas as relações entre os elementos de dados, os dados são classificados e catalogados automaticamente usando o próprio glossário de dados da organização. Isso significa que os clientes do BigID não precisam escolher entre correlação e classificação. Eles obtêm ambas, além de uma maneira abrangente de catalogar dados para facilitar a análise e o processamento. No entanto, diferentemente das ferramentas mais antigas que se concentravam apenas na classificação, os mapas de dados resultantes incluem um inventário completo dos dados de cada indivíduo – essencial para atender aos requisitos de direitos do titular dos dados, como o direito ao esquecimento previsto no GDPR.

PI, não o PII do seu pai

Começar com a correlação inteligente antes da classificação oferece às organizações uma vantagem crucial na resolução de casos de uso relacionados à privacidade. O direito pessoal de acesso, portabilidade, retificação e eliminação torna-se agora simples de operacionalizar. Os dados podem ser facilmente organizados por local de residência para análise de fluxos transfronteiriços e violações de soberania. Os registros de consentimento existentes podem ser correlacionados aos titulares dos dados para fornecer uma visão abrangente do consentimento em diferentes aplicações e por pessoa. Os registros de acesso podem ser cruzados com a atividade de dados do usuário para fornecer uma visão detalhada do uso dos dados de qualquer indivíduo. Diferentes perfis de usuário podem ser comparados em diferentes repositórios de dados para detectar anomalias e possíveis fraudes em contas.

Realizar a classificação após a correlação também oferece diversas vantagens operacionais exclusivas. As ferramentas baseadas em classificação tendem a ser otimizadas para armazenamentos de dados específicos, como repositórios de dados estruturados, não estruturados ou Big Data, mas não para todos. Com o BigID, as varreduras podem ser realizadas em uma ampla gama de armazenamentos de dados, incluindo bancos de dados relacionais, compartilhamentos de arquivos, ambientes Big Data, data warehouses, repositórios de documentos, aplicativos ERP, bancos de dados NoSQL, SaaS, IaaS e muito mais, proporcionando, pela primeira vez, uma visão verdadeiramente multiplataforma dos dados do cliente.

A correlação não exige a duplicação de dados nem a criação de data warehouses, garantindo que as empresas possam ter uma visão centralizada das informações de identificação de um indivíduo sem centralizar os dados. A correlação facilita a localização de informações pessoais, e não apenas de dados identificáveis. Informações de identificação pessoalComo a descoberta se baseia no contexto, bem como no conteúdo, e como o mecanismo de correlação do BigID não tenta antecipadamente encontrar correspondências entre tipos de dados, ele pode correlacionar dados em qualquer idioma. A correlação pode até mesmo revelar relações entre dados criptografados e não criptografados, ajudando a localizar dados pseudoidentificáveis, o que também é importante para o GDPR.

Os três C's: Correlação, Classificação, Catalogação

A busca centrada em correlações não é totalmente nova, embora seja uma inovação na descoberta de dados. Os mecanismos de busca da internet adotam uma abordagem semelhante para indexar a internet de forma eficiente e facilitar a navegação, utilizando um algoritmo análogo de relevância de hiperlinks. As redes sociais também utilizam grafos de relacionamento para auxiliar na navegação entre indivíduos. Aplicar abordagens similares à indexação de dados traz diversas vantagens, que vão desde a escalabilidade até a independência de dados. Mas talvez o mais importante seja que a descoberta de dados centrada em identidade da BigID, com patente pendente, ajuda as organizações a lidar com casos de uso de privacidade como os introduzidos pelo GDPR. Agora, as empresas podem encontrar informações pessoais e não apenas informações pessoais identificáveis. Elas podem atender aos direitos dos titulares dos dados, como o direito ao esquecimento. Podem responder com mais facilidade a questões de soberania de dados, residência, violação de dados e consentimento. Mas talvez o mais importante seja que, com a BigID, elas não precisam se contentar apenas com a classificação baseada em padrões. Elas ainda podem classificar dados. catálogo dados. E, pela primeira vez, eles conseguem correlacionar dados.