A classificação nunca foi fácil: até Aristóteles teve dificuldades com ela. Quando ele tentou dividir os organismos em dois grupos (plantas e animais) e, em seguida, cada um deles em três (os primeiros com arbustos, sebes e árvores; os últimos, terra, ar e água), não foi suficiente. Se um pássaro foi classificado como um animal do ar – o que dizer dos nossos queridos amigos pinguins e de outras aves que não voam?
No mundo natural, tornou-se um pouco mais preciso no século XVIII, quando Lineu revolucionou a classificação com reino, filo, classe, ordem, etc. — as taxonomias que todos aprendemos nas aulas de biologia. Mas mesmo essas definições se tornam nebulosas quando os biólogos começam a levar em conta as relações entre os organismos — pássaros, crocodilos e dinossauros, afinal, são todos parentes — mas em classes muito diferentes.
No mundo dos dados? As coisas ficam ainda mais complexas.
Classificação é a chave para entender seus dados e, finalmente, fazer com que eles trabalhem para você: é essencial para poder reduzir riscos, tomar decisões estratégicas, manter a conformidade, acelerar a governança, reter (ou reduzir) os dados corretos, gerenciar a privacidade dos dados e proteger seus dados em primeiro lugar.
A classificação tradicional de dados é insuficiente: os dados não são categorizados nem rotulados de forma consistente, não têm contexto, são ruidosos e não são confiáveis.
Você pode marcar, rotular e categorizar seus dados manualmente, mas isso leva tempo, é propenso a erros e você não consegue entender as relações entre os pontos de dados. Fazem parte de um conjunto maior? Parte de uma identidade? São dados regulamentados?
Você tem o seu classificação básica baseada em expressões regulares – essencialmente dados que seguem um padrão específico: um número de 7 dígitos que começa com 312 pode significar um número de telefone com um código de área de Chicago. Mas e se for um número de conta em vez disso?
Sem contexto, é difícil classificar os dados corretamente. Se você tentar classificar a palavra Brooklyn em um conjunto de dados, por exemplo, como saber se Brooklyn está se referindo a distrito da cidade de Nova York, o subúrbio de Melbourne, Austrália ou o primeiro nome de uma pessoa específica? Como você sabe se aquela instância específica do Brooklyn é pública, privada ou se os dados são restritos?
O que a classificação de dados moderna precisa levar em conta?
Na atual dispersão de dados, a importância de uma classificação precisa e escalável é fundamental. As organizações precisam adotar uma abordagem em camadas para construir uma base que permita à empresa extrair mais de seus dados – seja para análise e fins estratégicos de negócios, seja para impulsionar a segurança e a conformidade dos dados.
Hoje em dia, a classificação de dados moderna precisa abordar:
- Precisão: Se houver ruído, se houver muitos falsos positivos, é melhor começar do zero. A classificação moderna de dados precisa ser preciso para que possa ser usado para tudo, desde validação de dados para execução de políticas.
- Padrões e relacionamentos: Compreender um único ponto no tempo é uma coisa – ter uma visão geral é outra completamente diferente. É fundamental agora entender como os dados estão relacionados, como estão conectados: tudo faz parte do mesmo conjunto de propriedade intelectual? Tudo se refere ao mesmo indivíduo?
- Contexto: Adicionar contexto faz toda a diferença – com contexto, você conseguirá identificar se é Brooklyn, a cidade, ou Brooklyn, o primeiro nome. Você poderá rotular dados regulamentados da maneira correta, aplicar políticas automaticamente e reduzir ruídos e atritos.
- Personalização: Os dados de cada organização são diferentes: têm uma configuração, um significado e uma prioridade diferentes. A classificação dos dados precisa ser personalizável para os próprios dados – e precisa ser capaz de aprender com conjuntos de dados personalizados para gerar valor significativo.
E você não pode mais fazer isso manualmente – nem na taxa em que os dados crescem, nem na taxa em que a definição de “dados sensíveis” evolui. Você não pode simplesmente pegar as mesmas técnicas antigas e envolvê-las em uma nova embalagem: você precisa sobrepor a classificação de dados testada e comprovada com ML e PNL de ponta para obter uma classificação de dados que funcione com os dados de hoje — uma classificação criada para os desafios atuais em termos de uso, armazenamento, tipo e muito mais.
A classificação moderna de dados vai além da simples atribuição de um nível de sensibilidade aos dados ou da categorização por atributo, tipo ou conteúdo. Ela combina essas técnicas com contexto ampliado por aprendizado de máquina, aplica pontuação de confiança, integra bibliotecas de políticas e se estende a todos os silos de dados, de modo que a classificação em escala seja verdadeiramente a base para qualquer iniciativa de dados bem-sucedida.
Dados sem significado são apenas ruído sem ritmo. A classificação moderna pode mudar isso – adicionando inteligência acionável para que você possa faça mais com seus dados.