A classificação nunca foi fácil: até Aristóteles teve dificuldades com isso. Quando ele tentou dividir os organismos em dois grupos (plantas e animais) e depois cada um desses em três (os primeiros ficaram com arbustos, sebes e árvores; os últimos com terra, ar e água), não foi suficiente. Se uma ave fosse classificada como um animal do ar, o que dizer dos nossos adoráveis amigos pinguins e de outras aves que não voam?
No mundo natural, tornou-se um pouco mais preciso no século XVIII, quando Lineu revolucionou a classificação. Com reino, filo, classe, ordem, etc. — as taxonomias que todos aprendemos nas aulas de biologia. Mas mesmo essas definições ficam nebulosas quando os biólogos começam a levar em conta as relações entre os organismos — afinal, aves, crocodilos e dinossauros são todos aparentados —, mas em classes muito diferentes.
No mundo dos dados? As coisas ficam ainda mais complexas.
Classificação É a chave para entender seus dados e, em última análise, fazer com que eles trabalhem para você: é fundamental para reduzir riscos, tomar decisões estratégicas, manter a conformidade, acelerar a governança, reter (ou reduzir) os dados corretos, gerenciar a privacidade dos dados e proteger seus dados desde o início.
A classificação de dados tradicional apresenta limitações: os dados não são categorizados e rotulados de forma consistente, carecem de contexto, são ruidosos e não são confiáveis.
Você pode etiquetar, rotular e categorizar seus dados manualmente, mas isso leva tempo, é propenso a erros e impede a compreensão das relações entre os pontos de dados. Faz parte de um conjunto maior? De uma identidade? São dados regulamentados?
Você tem o seu classificação básica baseada em expressões regulares – essencialmente dados que seguem um padrão específico: um número de 7 dígitos que começa com 312 pode significar um número de telefone com o código de área de Chicago. Mas e se for um número de conta em vez disso?
Sem contexto, é difícil classificar dados corretamente. Se você tentar classificar a palavra "Brooklyn" em um conjunto de dados, por exemplo, como saber se esse "Brooklyn" está se referindo ao bairro de Brooklyn? bairro de Nova York, o subúrbio de Melbourne, Austrália ou o primeiro nome de uma pessoa específicaComo saber se aquele exemplo específico de dados do Brooklyn é público, privado ou restrito?
O que a classificação de dados moderna precisa levar em consideração?
Na atualidade, com a enorme quantidade de dados disponíveis, a importância de uma classificação de dados precisa e escalável é fundamental. As organizações precisam adotar uma abordagem em camadas para construir uma base sólida que permita aos negócios extrair o máximo de seus dados — seja para análises e estratégias comerciais, seja para garantir a segurança e a conformidade dos dados.
Atualmente, a classificação de dados moderna precisa abordar os seguintes aspectos:
- Precisão: Se os dados forem ruidosos, se houver muitos falsos positivos, é melhor começar do zero. A classificação de dados moderna precisa ser preciso para que possa ser usado para tudo, desde validação de dados para aplicação de políticas.
- Padrões e relações: Entender um único momento no tempo é uma coisa – ter uma visão geral é outra completamente diferente. É fundamental agora compreender como os dados se relacionam, como estão conectados: fazem parte do mesmo conjunto de propriedade intelectual? Estão todos relacionados ao mesmo indivíduo?
- Contexto: Adicionar contexto faz toda a diferença – com contexto, você poderá distinguir se está se referindo à cidade de Brooklyn ou ao nome Brooklyn. Você poderá rotular dados regulamentados corretamente, aplicar políticas automaticamente e reduzir ruídos e atritos.
- Personalização: Os dados de cada organização são diferentes: possuem uma configuração, um significado e prioridades distintos. A classificação de dados precisa ser personalizável aos próprios dados e capaz de aprender com conjuntos de dados personalizados para agregar valor significativo.
E você não pode mais fazer isso manualmente – não na velocidade com que os dados crescem, nem na velocidade com que... A definição de “dados sensíveis” está em constante evolução.Não basta pegar as mesmas técnicas antigas e embalá-las em uma nova roupagem: é preciso combinar a classificação de dados comprovada com aprendizado de máquina e processamento de linguagem natural de ponta para obter uma classificação de dados que funcione com os dados atuais – uma classificação criada para os desafios de hoje em relação a uso, armazenamento, tipo e muito mais.
A classificação de dados moderna vai além de simplesmente atribuir um nível de sensibilidade aos dados ou categorizá-los por atributo, tipo ou conteúdo. Ela combina essas técnicas com contexto aprimorado por aprendizado de máquina, aplica pontuação de confiança, integra bibliotecas de políticas e se estende a todos os silos de dados, de modo que a classificação em escala seja verdadeiramente a base para qualquer iniciativa de dados bem-sucedida.
Dados sem significado são apenas ruído sem ritmo. A classificação moderna pode mudar isso. – adicionando informações práticas para que você possa Aproveite melhor seus dados.