Pular para o conteúdo

Dados de identificação: Você saberá reconhecer se vir?

O que antes poderia ter sido uma resposta clara e binária para a questão do que constitui informação de identificação pessoal (IIP) em breve se tornará mais complexo e intrincado. Certamente, um conjunto de dados que identifica explicitamente um indivíduo específico e relaciona seus detalhes pessoais permanece definitivamente IIP. No entanto, a definição do que pode ou poderia ser considerado dados pessoais parece estar mudando — e, ainda mais significativamente, expandindo-se para informações pessoais que são potencialmente identificáveis. Essa indefinição é resultado de novas regulamentações — especialmente, mas não exclusivamente, o Regulamento Geral de Proteção de Dados (RGPD) da União Europeia — mas também de novas preocupações sobre a eficácia de métodos consagrados para anonimizar dados no mundo online e o crescente potencial de reidentificar clientes pela junção de conjuntos de dados relacionados dispersos na infraestrutura de Big Data.

A definição do que se qualifica ou pode ser considerado dado pessoal não é simplesmente um debate acadêmico obscuro ou assunto para deliberações de especialistas em políticas de privacidade. Em vez disso, as definições emergentes de dados privados, que levam em conta o grau de identificabilidade e o contexto, têm implicações muito reais para a forma como os dados pessoais são gerenciados. Para melhor atender aos requisitos de conformidade que possuem uma definição mais ampla e rigorosa de dados pessoais e reduzir a superfície de ataque, é necessária uma estratégia de gerenciamento de dados dinâmica e flexível, baseada em visibilidade e análises em tempo real.

Privacidade exige mais do que desidentificação.

Se a direção tomada pelo RGPD da UE serve de indicação, a classificação de dados pessoais e, por extensão, a sua gestão e proteção, provavelmente se tornarão um desafio operacional ainda maior. O RGPD da UE introduz, pela primeira vez, uma terceira categoria de dados pessoais, com a elegante designação de “pseudonimização”, que se soma às categorias já existentes de dados pessoais e anônimos. Dados pseudonimizados são informações que não permitem mais a identificação de um indivíduo sem informações adicionais e são mantidas separadas dele.

A nova categoria, porém, faz mais do que simplesmente adicionar complexidade. Por um lado, ela aborda algumas das preocupações sobre uma definição excessivamente ampla de dados privados que restringe as atividades de pesquisa. Por outro, a categoria visa minar e desencorajar muitas práticas aceitas de desidentificação, especialmente no mundo online. Na prática, o que a categoria faz é reformular uma definição legal como uma definição técnica.

A desidentificação, como o próprio termo sugere, envolve a ocultação de informações específicas relacionadas à identidade do titular dos dados, transformando-as em dados anônimos. Nos mundos online e móvel, onde cookies, tags e aplicativos podem capturar grandes quantidades de informações sobre um indivíduo, processos de desidentificação, como a substituição de dados pessoais por um número aleatório ou hash, têm sido utilizados como forma de anonimizar dados e reduzir o escopo dos requisitos de conformidade. De modo geral, os padrões da indústria de publicidade nos EUA consideram esses dados como não-PII (Informações Pessoais Identificáveis).

O grau de ceticismo é evidente no relatório divulgado pelo Grupo de Trabalho do Artigo 29 da UE, na preparação para a finalização do RGPD: “Se a pseudonimização se baseia na substituição de uma identidade por outro código único, a presunção de que isso constitui uma desidentificação robusta é ingênua e não leva em consideração a complexidade das metodologias de identificação e os diversos contextos em que elas podem ser aplicadas.”

Ocultar a identidade não é proteger a identidade.

O motivo desse ceticismo reside no fato de que os reguladores da UE acreditam que as técnicas de desidentificação existentes não conseguem impedir o seu objetivo principal: a reidentificação de indivíduos específicos. Esse ceticismo também se evidencia na inclusão de endereços MAC como identificador direto na nova definição de dados privados do RGPD, bem como nas normas propostas pela FCC.

Além disso, lendo nas entrelinhas, os órgãos reguladores estão preocupados com o fato de que, à medida que as organizações coletam, armazenam e processam grandes quantidades de dados relacionados a um indivíduo por meio de identidades online, cookies, tags ou aplicativos móveis, tanto os invasores quanto as próprias organizações que detêm os dados podem facilmente reidentificar os usuários. Existe agora o potencial para frustrar facilmente a "desvinculação" linear.

O desafio enfrentado pelas organizações que buscam cumprir o Regulamento não se limita à implementação da minimização de dados para evitar o acúmulo de cópias dos mesmos dados que podem ser facilmente vinculadas, mas também inclui o gerenciamento da chamada proximidade de dados em sua infraestrutura de Big Data. A preocupação não se restringe ao fato de que o processo de desidentificação pode ser facilmente revertido pela fusão ou vinculação de dois conjuntos de dados relacionados, mas também que, na era do Big Data, os invasores podem facilmente combinar dados públicos e privados em poucos passos para reidentificar um indivíduo específico.

Conformidade com a privacidade em uma era de reidentificação simplificada

Limitar a reidentificação não deve ser apenas uma preocupação de conformidade. Embora privacidade, governança, regulamentação de residência de dados e segurança de dados possam, por vezes, parecer contraditórias, esta é uma área onde os esforços de mitigação de riscos convergem. Compreender o grau de proximidade dos dados também pode ajudar a identificar não apenas onde existe o risco de infringir as normas de conformidade e de mover inadvertidamente dados de uma categoria para outra, mas também a possibilidade de reidentificação, que representa um risco de violação das políticas de privacidade e dos termos de consentimento do usuário.

Segurança sseguranças, segmentação e controles de acesso Medidas aplicadas à forma como os dados são obtidos, utilizados ou disseminados podem mitigar riscos, mas é necessária uma abordagem mais proativa, não apenas para sinalizar quando dados explicitamente privados correm o risco de serem expostos, mas também se podem ser reidentificados à medida que percorrem os fluxos de processamento.

Gerenciar o risco de reidentificação, tanto inadvertida quanto maliciosa, por parte de atacantes não é uma tarefa simples, especialmente quando as organizações precisam se adequar a um conjunto complexo de regulamentações e obter visibilidade em múltiplas dimensões.

Na verdade, as organizações poderiam até adotar uma abordagem probabilística, com benefícios tanto para a conformidade quanto para a segurança, para identificar com mais precisão o potencial de reidentificação caso duas fontes de dados sejam acessadas por administradores, serviços, APIs, funcionários ou terceiros. No entanto, essa abordagem só é viável se as organizações conseguirem manter visibilidade em tempo real de seus dados, automatizar a detecção de proximidade de dados de risco, aplicar controles dinamicamente ou modificar políticas quando o risco for detectado.

Conteúdo