É raro encontrar um celular flip hoje em dia, quando os smartphones são praticamente onipresentes. No entanto, no âmbito da segurança de dados, onde precisão e contexto são cruciais, muitos ainda usam a tecnologia flip para descobrir, entender e classificar dados pessoais.
Na era dos flip phones, a classificação era concebida como um meio para atingir um fim. Ao determinar onde dados sensíveis estavam armazenados por meio de ajustes infinitos em Expressões Regulares e comparar as contagens brutas de PII correspondentes, as empresas poderiam – em teoria – passar de uma busca desesperada para um foco nas fontes de dados com maior risco de segurança e conformidade.
Mas agora a classificação precisa funcionar como um componente integral para os resultados de gerenciamento, segurança e privacidade de dados. Na era da privacidade, a identidade correlação é essencial para o valor, relevância e precisão da classificação.
Classificação Moderna: Contexto e Correlação
Sem o contexto derivado da correlação de identidades, as empresas ficam no escuro sobre quais dados pessoais armazenam e processam – e, por extensão, quais riscos de privacidade, segurança e conformidade enfrentam. Ser capaz de entender a relação entre valores de dados e identidades correlacionadas, mesmo antes da aplicação da classificação, evita uma das deficiências fundamentais da classificação tradicional: ficar preso em dados que parecem iguais, mas não possuem mecanismo para desambiguar.
Sem um catálogo de dados construído usando correlação de identidade, descoberta e indexação entre fontes de dados, as empresas estão presas ao passado, mesmo com a proliferação do volume e da interconexão de seus dados pessoais. Ao incorporar recursos de catalogação à classificação, as empresas ganham outra camada de contexto ao integrar a compreensão de dados pessoais à análise de metadados.
Da mesma forma que a classificação que analisa os dados isoladamente está perdendo relevância, a classificação em si deve ser vista como parte de uma abordagem mais ampla que integra classificação, correlação e catalogação.
A privacidade muda o jogo
Dados pessoais – conforme definido por novos mandatos de privacidade, como o RGPD da UE e o Lei de Proteção ao Consumidor da Califórnia – é sensível com base na associação ou não com uma pessoa. Um exemplo claro são os dados de localização (especialmente adequados na era dos smartphones). Os dados de localização não são exclusivos de nenhuma pessoa, mas se tornam pessoais com base em sua associação com uma pessoa.
Sem esse contexto de TV pessoal, a classificação legada não pode dizer nada sobre o que são dados pessoais — mesmo que a tecnologia possa escanear mais de um tipo de fonte de dados ou agregar em silos de dados.
Nos anos seguintes, desde que a primeira onda de violações de dados e os requisitos do PCI-DSS impulsionaram a adoção da classificação por meio de correspondência de padrões, houve esforços para reduzir o número de falsos positivos e, mais recentemente, usar o aprendizado de máquina para automatizar e refinar o treinamento RegEx, que exige muitos recursos.
Essas novas iterações da mesma abordagem ainda dizem a mesma coisa: fornecem contagens de dados, não contabilidade de dados, e realizam classificação grosseira no nível de pasta, não contabilidade granular no nível de valor de dados.
As empresas costumavam se preocupar apenas com cartões de crédito e números de Seguro Social. Agora, elas precisam identificar todos os dados pessoais, mesmo aqueles que são pessoais apenas devido ao contexto ou à identidade de uma pessoa. Isso representa um grande problema de segurança de identidade.
Há esperança no horizonte
Felizmente, agora existe uma abordagem melhor, projetada para os ambientes de dados modernos. Assim como os smartphones não têm apenas voz e texto, a classificação de dados moderna incorpora metodologias legadas, como Expressões Regulares, como uma flecha na aljava.
Mas, em vez de a classificação por correspondência de padrões ser o primeiro e único passo, a abordagem começa com os próprios valores de dados, estabelece se os dados são exclusivamente identificáveis, o grau de correlação com outros valores de dados, determina a quem ou a que os dados estão associados e, então, aplica a classificação.
Os resultados da classificação também podem ser modificados com base na interação com o modelo de aprendizado de máquina subjacente ou por meio da integração com um glossário de negócios. Essas interações são incorporadas aos modelos de aprendizado de máquina para iterar sobre melhorias de precisão.
O resultado é um inventário e mapeamento dinâmico e abrangente de todos os dados pessoais nos ambientes corporativos que podem ser segmentados, divididos e interpretados por meio de classificação para enquadrar decisões e processos — em vez disso, uma representação de quais pastas estão piscando mais em vermelho com base em um palpite informado.
Se os dados forem pessoais com base na associação com um indivíduo, a classificação deverá ser orientada por essa associação, não pelas limitações da ferramenta tecnológica.
Classificação para a era da privacidade
Uma abordagem que prioriza os dados adota um processo de várias etapas que pode incorporar e estender metodologias estabelecidas e estabelecer a base para a integração de ferramentas de aprendizado de máquina para estabelecer relacionamentos como redes neurais ou classificadores de árvores aleatórias, bem como processamento de linguagem natural.
Analisar os dados em sua totalidade proporciona maior precisão e a capacidade de descobrir dados pessoais ocultos. Para atingir esse resultado, a abordagem precisa ter múltiplos componentes.
• Uma ampla cobertura em toda a empresa: não estruturada, estruturada, semiestruturada, nuvem e aplicativos ('legados' como SAP e SaaS como Salesforce)
• Correlação e Aprendizado de Máquina para Estabelecer Relacionamentos de Dados
• Gerar insights granulares – descoberta e classificação de pastas, arquivos e objetos de dados
- Estenda expressões regulares por meio de enriquecimento
- Nenhuma 'Caixa Preta': Aprendizagem supervisionada, interação com modelos e integração de glossário de negócios
- Inteligência Avançada de Dados Não Estruturados: Extração e resolução de entidades baseadas em redes neurais para “dados obscuros” em fontes de dados não estruturados