Pular para o conteúdo

Repensando a classificação de dados Para a Nova Era da Privacidade

Hoje em dia, com a onipresença dos smartphones, é raro encontrar um celular de flip. No entanto, na área de segurança de dados, onde precisão e contexto são cruciais, muitos ainda utilizam a tecnologia dos celulares de flip para descobrir, compreender e classificar dados pessoais.

Na era dos celulares flip, a classificação era vista como um meio para um fim. Ao determinar onde os dados sensíveis eram armazenados por meio de inúmeros ajustes de expressões regulares e comparando a contagem bruta de informações pessoais identificáveis (PII) correspondentes, as empresas poderiam – em teoria – passar de uma corrida desesperada para um foco nas fontes de dados com maior risco de segurança e conformidade.

Mas agora a classificação precisa funcionar como um componente integral para a gestão de dados, a segurança de dados e a privacidade de dados. Na era da privacidade, a identidade correlação É parte integrante do valor, da relevância e da precisão da classificação.

Classificação moderna: contexto e correlação

Sem o contexto derivado da correlação de identidades, as empresas ficam no escuro sobre quais dados pessoais armazenam e processam – e, por extensão, sobre os riscos de privacidade, segurança e conformidade que enfrentam. Ser capaz de entender a relação entre os valores dos dados e as identidades correlacionadas, mesmo antes da aplicação da classificação, evita uma das principais deficiências dos métodos tradicionais de classificação, que ficam presos a dados aparentemente iguais, mas que não possuem mecanismos para diferenciá-los.

Sem um catálogo de dados construído com base na correlação de identidade, descoberta Ao indexar e analisar dados em diversas fontes, as empresas permanecem presas ao passado, mesmo com a crescente proliferação e interconexão de seus dados pessoais. Ao incorporar recursos de catalogação à classificação, as empresas obtêm uma camada adicional de contexto, integrando a compreensão dos dados pessoais à análise de metadados.

Da mesma forma que a classificação que analisa os dados isoladamente está perdendo relevância, a própria classificação deve ser vista como parte de uma abordagem mais ampla que integre classificação, correlação e catalogação.

A privacidade muda tudo.

Dados pessoais – conforme definidos por novas normas de privacidade como o RGPD da UE e o Lei de Proteção ao Consumidor da Califórnia – é sensível dependendo de estar ou não associada a uma pessoa. Um ótimo exemplo são os dados de localização (especialmente relevantes na era dos smartphones). Os dados de localização não são exclusivos de nenhuma pessoa, mas tornam-se pessoais com base na sua associação a uma pessoa.  

Sem esse contexto pessoal da TV, a classificação tradicional não consegue dizer nada sobre o que são dados pessoais – mesmo que a tecnologia seja capaz de analisar mais de um tipo de fonte de dados ou agregar dados de diferentes silos.

Nos anos que se seguiram à primeira onda de violações de dados e aos requisitos do PCI-DSS, que impulsionaram a adoção da classificação por meio de correspondência de padrões, houve esforços para reduzir o número de falsos positivos e, mais recentemente, para usar o aprendizado de máquina para automatizar e refinar o treinamento de expressões regulares (RegEx), que consome muitos recursos.

Essas novas versões da mesma abordagem continuam dizendo a mesma coisa: fornecem contagens de dados, não contabilização de dados, e realizam uma classificação grosseira no nível da pasta, não uma contabilização granular no nível do valor dos dados.

Antes, as empresas só precisavam se preocupar com cartões de crédito e números de segurança social. Agora, elas precisam identificar todos os dados pessoais, mesmo aqueles que são pessoais apenas por estarem relacionados ao contexto de uma pessoa. Isso representa um grande problema de segurança de identidade.

Há esperança no horizonte.

Felizmente, agora existe uma abordagem melhor, projetada para os ambientes de dados modernos. Assim como os smartphones não se limitam a voz e texto, a classificação de dados moderna incorpora metodologias tradicionais, como expressões regulares, como uma das ferramentas disponíveis.

Mas, em vez de a classificação por correspondência de padrões ser o primeiro e único passo, a abordagem começa com os próprios valores dos dados, estabelece se os dados são exclusivamente identificáveis, o grau de correlação com outros valores de dados, determina com quem ou com o que os dados estão associados e, em seguida, aplica a classificação.

Os resultados da classificação também podem ser modificados com base na interação com o modelo de aprendizado de máquina subjacente ou por meio da integração com um glossário de negócios. Essas interações são incorporadas aos modelos de aprendizado de máquina para iterar e aprimorar a precisão.

O resultado é um inventário e mapeamento dinâmico e abrangente de todos os dados pessoais nos ambientes corporativos, que podem ser segmentados, analisados e interpretados por meio de classificação para estruturar decisões e processos – ou seja, uma representação de quais pastas estão apresentando maior risco com base em uma estimativa fundamentada.  

Se os dados forem pessoais com base na associação com um indivíduo, a classificação deve ser orientada por essa associação, e não pelas limitações da ferramenta tecnológica.

Classificação para a era da privacidade

Uma abordagem centrada nos dados adota um processo de várias etapas que pode incorporar e ampliar metodologias já estabelecidas, lançando as bases para a integração de ferramentas de aprendizado de máquina, como redes neurais ou classificadores de árvores aleatórias, além do processamento de linguagem natural, para estabelecer relações.

Analisar os dados em sua totalidade proporciona maior precisão e a capacidade de descobrir dados pessoais ocultos. Para alcançar esse resultado, a abordagem precisa ter múltiplos componentes.

• Ampla cobertura em toda a empresa: não estruturada, estruturada, semiestruturada, nuvem e aplicativos ('legados' como o SAP e SaaS como o Salesforce)
• Correlação e aprendizado de máquina para estabelecer relações entre dados
• Gere insights detalhados – Descoberta e classificação de pastas, arquivos e objetos de dados
• Ampliar expressões regulares por meio de enriquecimento
Sem 'caixa preta': Aprendizado supervisionado, interação com modelos e integração de glossário de negócios
Inteligência Avançada de Dados Não EstruturadosExtração e resolução de entidades baseadas em redes neurais para "dados obscuros" em fontes de dados não estruturadas.