Pular para o conteúdo
Ver todas as postagens

Identificação de dados de identidade: Você saberá o que é se o vir?

O que poderia ter sido no passado uma resposta clara e binária à questão do que constitui informação pessoalmente identificável (PII) em breve se tornará mais complexo e intrincado. Certamente, um conjunto de dados que identifica explicitamente um indivíduo específico e relaciona seus detalhes pessoais continua sendo definitivamente PII. No entanto, a definição do que poderia ou poderia ser considerado dado pessoal parece estar mudando — e, ainda mais significativamente, expandindo-se para informações pessoais potencialmente identificáveis. As linhas tênues são o resultado de novas regulamentações — especialmente, mas não exclusivamente, o Regulamento Geral sobre a Proteção de Dados da União Europeia — mas também de novas preocupações sobre a eficácia de métodos antigos para desidentificar dados no mundo online e o crescente potencial de reidentificar clientes unindo conjuntos de dados relacionados espalhados pela infraestrutura de Big Data.

A definição do que se qualifica ou pode ser considerado dado pessoal não é simplesmente um debate acadêmico obscuro ou assunto para deliberações de especialistas em políticas de privacidade. Em vez disso, as definições emergentes de dados privados, que levam em consideração o grau de identificabilidade e o contexto, têm implicações muito reais para a forma como os dados pessoais são gerenciados. Para atender melhor aos requisitos de conformidade, que exigem uma definição mais ampla e rigorosa de dados pessoais e reduzir a superfície de ataque, é necessária uma estratégia de gerenciamento de dados dinâmica e flexível, baseada em visibilidade e análise em tempo real.

A privacidade exige mais do que a desidentificação

Se a direção tomada pelo RGPD da UE servir de indicação, a forma de classificar dados pessoais e, por extensão, gerenciá-los e protegê-los provavelmente se tornará um desafio operacional. O regulamento do RGPD da UE introduz pela primeira vez uma terceira categoria de dados pessoais, com a elegante denominação de "pseudonimização", além das categorias existentes de dados pessoais e anônimos. Dados pseudônimos são informações que não permitem mais a identificação de um indivíduo sem informações adicionais e são mantidas separadamente dele.

No entanto, a nova categoria faz mais do que apenas adicionar complexidade. Por um lado, aborda algumas das preocupações sobre uma definição excessivamente ampla de dados privados que restringe as atividades de pesquisa. Por outro, a categoria visa minar e desencorajar muitas práticas aceitas de desidentificação, especialmente no mundo online. Na prática, o que a categoria faz é reformular uma definição legal como uma definição técnica.

A desidentificação, como o próprio termo sugere, envolve a remoção de informações específicas relacionadas à identidade do titular dos dados para movê-las para a categoria anônima. Nos mundos online e móvel, onde cookies, tags e aplicativos podem capturar grandes quantidades de informações relacionadas a um indivíduo, processos de desidentificação, como a substituição de dados pessoais por um número aleatório ou hash, têm sido utilizados como forma de anonimizar dados e reduzir o escopo dos requisitos de conformidade. De modo geral, os padrões do setor de publicidade nos EUA consideram esses dados como não PII.

O grau de ceticismo é evidente no relatório emitido pelo Grupo de Trabalho do Artigo 29 da UE antes da finalização do GPDR: “Se a pseudonimização se baseia na substituição de uma identidade por outro código único, a presunção de que isso constitui uma desidentificação robusta é ingênua e não leva em conta a complexidade das metodologias de identificação e os contextos multifacetados onde elas podem ser aplicadas”.

Esconder identidade não é proteger identidade

O motivo do ceticismo reside no fato de os reguladores da UE acreditarem que as técnicas de desidentificação existentes não conseguem impedir o que se propõem a fazer: reidentificar indivíduos específicos. Esse ceticismo também se manifesta na incorporação de endereços MAC como identificador direto na nova definição de dados privados do GDPR, bem como nas regras propostas pela FCC.

Além disso, lendo nas entrelinhas, os reguladores estão preocupados com o fato de que, à medida que as organizações coletam, armazenam e processam grandes quantidades de dados relacionados a um indivíduo por meio de identidades online, cookies, tags ou aplicativos móveis, tanto os invasores quanto as próprias organizações que detêm os dados podem facilmente reidentificar os usuários. Agora existe o potencial para facilmente frustrar a "desvinculação" linear.

O desafio enfrentado pelas organizações que buscam cumprir o Regulamento não é apenas implementar a minimização de dados para evitar o acúmulo de cópias dos mesmos dados que podem ser vinculadas com relativa facilidade, mas também gerenciar a chamada proximidade de dados em sua infraestrutura de Big Data. A preocupação não é apenas que o processo de desidentificação seja facilmente revertido pela fusão ou vinculação de dois conjuntos de dados relacionados, mas também que, na era do Big Data, invasores possam facilmente unir partes de dados públicos e privados em algumas etapas triviais para reidentificar um indivíduo específico.

Conformidade de privacidade em uma era de reidentificação simplificada

Limitar a reidentificação não deve ser apenas uma questão de conformidade. Embora privacidade, governança, regulamentação de residência de dados e segurança de dados possam, às vezes, parecer conflitantes, esta é uma área onde os esforços de mitigação de riscos realmente convergem. Compreender o grau de proximidade dos dados também pode ajudar a entender não apenas onde existe o risco de infringir as normas de conformidade e mover dados inadvertidamente de uma categoria para outra. Se os dados puderem ser reidentificados, isso também representa um risco de violação das políticas de privacidade e dos contratos de consentimento do usuário.

Segurança sproteções, segmentação e controles de acesso colocadas na maneira como os dados são obtidos, usados ou disseminados podem mitigar o risco, mas uma abordagem mais proativa é necessária não apenas para sinalizar quando dados explicitamente privados correm o risco de serem expostos, mas também se eles podem ser reidentificados à medida que passam pelos fluxos de processamento.

Gerenciar o risco de reidentificação inadvertida e maliciosa por invasores não é uma tarefa simples, especialmente quando as organizações precisam se alinhar a um mosaico de regulamentações e ganhar visibilidade em várias dimensões.

Na verdade, as organizações podem até adotar uma abordagem probabilística, com benefícios tanto para a conformidade quanto para a segurança, para melhor identificar o potencial de reidentificação caso duas fontes de dados sejam acessadas por administradores, serviços, APIs, funcionários ou terceiros. No entanto, essa abordagem só é viável se as organizações puderem manter visibilidade em tempo real de seus dados, automatizar a detecção de proximidade de dados arriscada, aplicar controles dinamicamente ou modificar políticas quando o risco for detectado.

Conteúdo