Pular para o conteúdo

O papel de IA, ML, e Aprendizado Profundo em Privacidade

Aprendizado de máquina, inteligência artificial e, agora, aprendizado profundo tornaram-se tão comuns que poderiam ser sinônimos de pó de fada e encantamentos mágicos. No entanto, abordagens que utilizam essas técnicas estão silenciosamente alterando a forma como as organizações enfrentam seu desafio mais premente: compreender e proteger dados.  

Esse desafio pode ser descrito sucintamente como: qual a melhor maneira de obter conhecimento sobre os dados para melhor gerenciar e proteger as informações?

Conhecer seus dados é essencial para protegê-los, pois não se pode proteger o que não se compreende. O conhecimento dos dados também é crucial para obter insights, perfis de risco e valor a partir deles. As abordagens tradicionais e manuais para coletar informações sobre quais dados pessoais são coletados e processados dependiam de entrevistas e pesquisas. Nem entrevistas nem pesquisas são confiáveis, precisas ou escaláveis – especialmente na era do Big Data. As abordagens automatizadas para analisar bancos de dados prometem maior detalhamento, confiabilidade e precisão no conhecimento dos dados – principalmente se as medidas corretas forem tomadas para alinhar o modelo com os dados de entrada.

Mas classificar, organizar e dar sentido a petabytes de detritos digitais não é tarefa fácil. A automatização de técnicas de classificação baseadas em regras ajuda, porém, ainda deixa a desejar na compreensão do contexto dos dados. É aí que a aprendizagem automática avançada e abordagens relacionadas fornecem um roteiro para um melhor mapeamento e compreensão dos dados pessoais – a base da proteção e privacidade eficazes dos dados pessoais.

Pessoas e Privacidade

 

Ironicamente, quando se trata de problemas de privacidade, o objetivo do aprendizado de máquina avançado não é necessariamente se assemelhar mais a um humano em termos de processamento de dados. A inteligência artificial é tipicamente associada à capacidade de interpretar entradas como texto, interações e imagens por meio de iteração e feedback constantes, visando automatizar ações e comportamentos indistinguíveis dos humanos. Para os requisitos de proteção e privacidade de dados, o oposto é verdadeiro: as pessoas são péssimas em avaliar onde os dados residem, determinar como os dados estão conectados a outros dados, rastrear o uso e os fluxos de dados e avaliar os riscos relacionados aos dados.

Em termos de privacidade, o objetivo principal é analisar dados com base em relações, e não apenas em similaridades, de maneiras que os humanos não conseguem. Aprendizado de Máquina (ML) e Aprendizado Profundo (Deep Learning) fornecem um conjunto de abordagens que podem ser aplicadas a desafios específicos de dados e para construir um modelo sustentável para problemas de privacidade e proteção de dados que dependem de contexto, mapeamento de relações e fluxos de dados.  

Nenhuma técnica isolada é uma solução milagrosa por si só. No entanto, ao combinar componentes de aprendizado de máquina de maneiras adequadas à finalidade — seja utilizando classificadores de árvores aleatórias para melhorar a precisão, a correlação e o raciocínio; limiares de probabilidade para avaliar relações entre dados; agrupamento para amostragem preditiva e análise comparativa da distribuição de dados pessoais; e redes neurais para estabelecer extração e resolução de entidades, bem como pontuação de confiança para equilibrar precisão e recall — as empresas podem construir e manter uma visão completa da privacidade de dados.

Homem vs. Máquina

 

Em questões de privacidade e proteção de dados pessoais, os esforços humanos se mostram insuficientes para encontrar, classificar ou organizar informações pessoais. A privacidade depende, antes de tudo, da compreensão de quais informações pessoais uma organização coleta e como essas informações são processadas e utilizadas. Isso exige um inventário preciso dos dados pessoais. Entrevistas e pesquisas só podem criar inventários baseados em lembranças, e não em registros de dados reais. Uma máquina é mais capaz do que um ser humano quando se trata de examinar registros de dados dentro de outras máquinas.

Criar um inventário de dados por meio de uma máquina exige a capacidade de analisar qualquer fonte de dados e classificá-los por tipo, pessoa, local de origem e aplicação, independentemente de estarem em um banco de dados, um compartilhamento de arquivos, um data warehouse de Big Data ou um serviço em nuvem. Isso geralmente é caracterizado como a criação de um inventário de dados, onde os dados podem ser organizados usando diferentes perspectivas para melhor compreender seu contexto.

É aqui que abordagens que conseguem estabelecer o grau de correlação entre valores de dados amplamente distribuídos, representar graficamente as relações entre valores altamente correlacionados por meio de raciocínio e aplicar modelos de aprendizado de máquina para precisão de classificação podem solucionar o desafio do conhecimento de dados.

As primeiras tentativas de usar ferramentas automatizadas para analisar dados e organizá-los em um inventário abrangente dependiam de tecnologias prontas para uso, como indexação e reconhecimento de padrões. Ferramentas como o Elasticsearch oferecem maneiras simples de indexar terabytes de dados e encontrar informações semelhantes usando diversos algoritmos de aprendizado de máquina.

Embora representem um avanço, essas primeiras tentativas de inventário de dados apresentam falhas irreconciliáveis. Ao tentarem resolver o problema da entrada de dados, criam novos problemas. Utilizar um data warehouse externo para análise é impraticável com o volume de dados que a maioria das organizações armazena, visto que exige a cópia de grandes quantidades de informações sensíveis para um repositório secundário. Além disso, acarreta custos de infraestrutura enormes, necessários para suportar a indexação. Ademais, cria um grave problema de segurança ao centralizar dados sensíveis em um único local.

No entanto, os problemas não se restringem apenas às etapas necessárias para realizar a indexação. O valor das descobertas também é limitado. Mesmo um índice completo ajudará a classificar os dados por tipo, mas não por pessoa. Fundamentalmente, a privacidade exige contexto humano; exige compreender quais dados são pessoais e a quem pertencem. O que torna os dados pessoais é a sua associação contextual com um indivíduo: ou seja, por definição, são sobre ou por essa pessoa.

Algoritmos de classificação de aprendizado de máquina (ML) ingênuos, capazes de identificar padrões, podem ajudar a distinguir duas entidades com aparência semelhante, mas não conseguem, por si só, demonstrar correlação com uma pessoa para determinar se os dados constituem informações pessoais. Isso exige um tipo diferente de aprendizado de máquina e aprendizado profundo, não disponível em ferramentas prontas para uso como o Elasticsearch.

A grande ideia do BigID ML

A privacidade e a proteção de dados pessoais começam com uma inteligência de dados eficaz, capaz de compreender quais dados pessoais uma organização coleta, a quem pertencem e como estão sendo usados. Às vezes, isso é caracterizado como um inventário de dados mais um registro do processamento de dados, mas vai além disso. Requer a capacidade de encontrar, classificar, correlacionar, catalogar e até mesmo rastrear dados à medida que são capturados e processados em uma empresa. Nenhuma dessas tarefas é fácil de iniciar, e elas se tornam ainda mais difíceis devido à complexidade e diversidade de onde e como as empresas coletam dados sobre pessoas em seus aplicativos móveis, web e IoT.

Tentar resolver esses problemas iterando sobre uma peça do quebra-cabeça representa uma melhoria em alguns aspectos do problema, mas ainda deixa sem solução a questão mais ampla do conhecimento de dados por pessoa ou entidade. Além disso, qualquer abordagem de caixa preta que não permita interação com a pontuação de confiança ou o refinamento das metodologias de correlação e da precisão da classificação jamais conseguirá lidar com as complexidades dos conjuntos de dados corporativos.

Para avançar rumo ao objetivo de compreender as inter-relações entre os dados e atributos descobertos com um alto grau de precisão e confiança, considerando a quem pertencem os dados e sem o ônus de ruídos desnecessários e falsos positivos, é necessário um aprendizado de máquina específico. A descoberta de dados, a classificação, a correlação de identidade, bem como os requisitos de privacidade, como a verificação de consentimento, dependem de diferentes técnicas, modelos de treinamento, raciocínio e ponderação de entrada. No entanto, esses elementos precisam se integrar em um modelo coeso, capaz de responder a novas entradas, sejam elas de máquinas ou humanas, para garantir uma proteção de privacidade de dados eficaz e dinâmica.

 

Conteúdo