Pular para o conteúdo
Ver todas as postagens

Uma abordagem de 4 etapas para Classificação de dados de última geração

Para gerenciar e proteger seus dados, você precisa saber não apenas onde eles estão, mas também de quem são e o que Sim, é. As abordagens tradicionais de classificação concentram-se na marcação manual ou na correspondência de padrões, que consome muitos recursos (o que nem sempre é confiável). Dada a taxa e a diversidade do crescimento de dados – sejam eles armazenados em um repositório de big data ou transferidos entre armazenamento em nuvem e data lakes – essas abordagens tradicionais não são escaláveis nem sustentáveis e não fornecem o contexto necessário para lidar com os desafios de privacidade e segurança do ambiente atual.

É por isso que o BigID aborda a classificação de forma diferente: não com base no que funcionou no passado ou na identificação do que é coberto por legislação específica, mas com uma abordagem centrada na privacidade, projetada desde o início.

Isso significa olhar para os dados – todos os dados, onde quer que esteja – e encontrar maneiras de classificar, marcar e conectar pontos de dados díspares em relacionamentos, identidades e perfis significativos.

O BigID adota uma abordagem de descoberta aprofundada, abrangente e abrangente: encontrando dados onde quer que estejam e aplicando camadas de contexto e correlação para classificação. Essa abordagem se baseia (e estende) em métodos de classificação mais tradicionais e expande a cobertura para vários tipos de informações confidenciais – desde informações pessoais identificável informações para perfil informações para informações sensíveis mais amplas.

Então, como o BigID faz isso? Temos algumas maneiras — todas desenvolvidas especificamente para o ambiente de dados atual (volume e variedade).

Expressão regular e correspondência de padrões

O mais tradicional dos métodos de classificação de dados, essa técnica combina expressões e padrões conhecidos com informações contidas nos seus dados.

Os números de cartão de crédito MasterCard, por exemplo, são números de dezesseis dígitos que começam com 5262. Portanto, é totalmente plausível que qualquer sequência inteira de dezesseis dígitos que comece com 5262 possa ser rotulada como um número de cartão de crédito MasterCard.

Da mesma forma, identificadores baseados em padrões, como códigos postais, números IBAN, números de previdência social e outros, podem se enquadrar nessa categoria: se você já conhece a estrutura das informações que está tentando combinar, poderá identificar padrões semelhantes dentro de um conjunto de dados.

A correspondência de padrões tradicional geralmente é definida por regulamentação: se algo como o PCI-DSS determinar que as organizações precisam ser capazes de identificar números de cartão de crédito, os padrões para números de cartão de crédito podem ser rapidamente analisados e adicionados a um conjunto de dicionários.

A classificação por correspondência de padrões não é de forma alguma obsoleta, mas é importante abordar mais do que os requisitos mínimos.

Adicionamos identificadores de segurança, por exemplo, para que as organizações possam identificar pontos de dados focados em segurança, como chaves de API, credenciais, tokens e até mesmo senhas comuns.

Então, para alguns tipos de dados, a correspondência de padrões funciona.

Classificação Contextual

Um conjunto de dados muito mais complexo de classificar é o tipo que não segue necessariamente um padrão definido ou consistente: é difícil identificar "nomes amigáveis" – muito menos vê-los no contexto de uma identidade específica. O contexto também é crucial para distinguir entre dois valores de dados que têm formatos semelhantes, mas são dois tipos diferentes de informação (um número de Seguro Social e um número de conta, por exemplo).

Suas ferramentas de classificação tradicionais podem correlacionar um número específico de Seguro Social com um primeiro nome, cor dos olhos, geolocalização e informações educacionais — tudo relacionado a uma única pessoa ou identidade?

Não. Mas o BigID pode.

Alavancagens do BigID Aprendizado de máquina (ML) e reconhecimento de entidade nomeada (NER) não apenas para identificar automaticamente informações confidenciais, como registros de votação, atividade em mídias sociais ou altura com base em inferência ou outras técnicas, mas também para vincular essa instância específica de informações confidenciais a uma identidade ou perfil individual.

A legislação sobre privacidade e proteção de dados está expandindo a definição de informações pessoais (e, posteriormente, o que tipo de informações precisa ser protegida), assim como suas soluções de classificação e descoberta.

Classificadores de arquivos por tipo

À medida que o volume de dados continua a crescer, é importante proteger o tipo certo de informação com as políticas certas: documentos legais devem seguir uma política, financeiros, outra, e assim por diante.

É por isso que adicionamos a classificação de arquivos por tipo ao nosso arsenal: o BigID possui modelos de aprendizado de máquina que classificam documentos automaticamente com base no conteúdo e na estrutura de um arquivo – sem se limitar a nenhum classificador de dados específico. Esses modelos podem reconhecer tipos de arquivos sensíveis: de demonstrações financeiras a cartões de embarque, resumos de alta e documentação de fusão e aquisição e mais.

Para que as organizações garantam que tenham a proteção de dados correta, elas precisam primeiro ser capazes de identificá-la com facilidade e precisão.

Classificação baseada em políticas

Entre todos os tipos de classificação e descoberta de dados, o principal fator para isso são as regulamentações de privacidade e proteção de dados. GDPR para CCPA para NYDFS para HIPAA, SOX, GLBA (…a lista continua), as organizações precisam ser capazes de identificar certos tipos de dados que se enquadram em regulamentações específicas e promulgar políticas para gerenciar e proteger esses dados.

O BigID possui bibliotecas de políticas integradas para ajudar a classificar, gerenciar e proteger tipos específicos de dados por política: desde números de identificação e senhas que se enquadram na CCPA, esquemas nacionais de identidade para GDPR, até informações de cartão de crédito que se enquadram no PCI. Classificar e gerenciar dados por política permite que as organizações criem fluxos de trabalho para esse tipo específico de dados, gerenciem o acesso, monitorem o uso e protejam dados confidenciais que possam estar sob ataque.

Classificação em qualquer lugar

O crescimento, o valor e o significado dos dados estão evoluindo rapidamente – e as políticas e regulamentações atualmente em vigor estão começando a acompanhar essa evolução. À medida que o mundo dos dados evolui, também evolui o valor dos dados pessoais, dos dados sensíveis e das próprias políticas que visam protegê-los. É por isso que a BigID está repensando a classificação: revolucionando a classificação e a descoberta com uma abordagem extensível e centrada em dados.

Normas de privacidade e proteção de dados, como a Lei SHIELD de Nova York, não apenas ampliam a definição de "informações pessoais", mas também adicionam camadas à classificação tradicional em suas recomendações: as organizações precisam ser capazes de correlacionar dados – como nome de usuário e e-mail, combinados com uma senha ou pergunta de segurança – para aplicar as proteções de segurança recomendadas. A Lei SHIELD, como prenúncio da próxima onda de leis de notificação de violação de dados, expande os tipos de dados abrangidos e a definição do que constitui uma violação de dados.

O sucesso da proteção de dados e da automação da privacidade depende da capacidade de descobrir, classificar, correlacionar e catalogar com precisão todas as informações sensíveis, independentemente de onde estejam. A correspondência de padrões por si só não é mais suficiente: as organizações precisam ser capazes de correlacionar dados a uma identidade, estabelecer relações entre instâncias únicas de dados sensíveis, identificar automaticamente informações sensíveis ou pessoais, diretas e inferidas, e estabelecer processos e políticas para proteger e gerenciar esses dados.

A descoberta, classificação e correlação do BigID se estendem a dados não estruturados, estruturados e semiestruturados em escala de petabytes e se aplicam a tudo, desde Cassandra até Amazon S3 para CIFS para Gmail para Couchbase para Box para Hadoop e em todos os lugares no meio: fornecendo a você um inventário unificado de seus dados confidenciais – tudo em um só lugar.

Com uma abordagem inovadora e orientada por dados para classificação, o BigID classifica de forma inteligente (e automática) dados e arquivos sensíveis de qualquer tipo, onde quer que estejam armazenados – em toda a sua organização. Quer ver isso em ação? Obter uma demonstração para ver como o BigID faz a classificação de forma diferente.

Conteúdo