Pular para o conteúdo
Ver todas as postagens

O papel de IA, ML, e Aprendizado Profundo em Privacidade

Aprendizado de Máquina, Inteligência Artificial e, agora, Aprendizado Profundo tornaram-se tão utilizados que poderiam muito bem ser sinônimos de pó mágico e encantamentos mágicos. Mas as abordagens que utilizam essas técnicas estão alterando silenciosamente a forma como as organizações enfrentam seu desafio mais urgente: compreender e proteger dados.  

Esse desafio pode ser descrito sucintamente como a melhor forma de obter conhecimento de dados para melhor administrar e proteger as informações.

Conhecer seus dados é essencial para protegê-los, pois você não pode proteger o que não compreende. O conhecimento de dados também é fundamental para obter insights, perfis de risco e valor dos seus dados. As abordagens tradicionais e manuais para coletar informações sobre quais dados pessoais são coletados e processados dependiam de entrevistas e pesquisas. Nem entrevistas nem pesquisas são confiáveis, precisas ou escaláveis – especialmente na era do Big Data. Abordagens baseadas em máquina para interrogar repositórios de dados prometem maior detalhamento, confiabilidade e precisão no conhecimento de dados – especialmente se as medidas corretas forem tomadas para alinhar o modelo com as entradas de dados.

Mas classificar, organizar e dar sentido a petabytes de detritos digitais não é uma tarefa fácil. Automatizar técnicas de classificação baseadas em regras ajuda, mas ainda deixa a desejar na compreensão do contexto dos dados. É aí que o aprendizado de máquina avançado e abordagens relacionadas fornecem um roteiro para um melhor mapeamento e compreensão de dados pessoais – a base para uma proteção e privacidade eficazes de dados pessoais.

Pessoas e Privacidade

Ironicamente, quando se trata de problemas de privacidade, o objetivo do ML avançado não é necessariamente ser mais semelhante a um ser humano em termos de processamento de dados. A IA é tipicamente associada à interpretação de entradas como texto, interações e imagens por meio de iteração e feedback constantes para impulsionar a automação de ações e comportamentos indistinguíveis dos humanos. Para os requisitos de proteção de dados e privacidade, o oposto é verdadeiro: as pessoas são ruins em julgar quais dados residem e onde, em determinar como os dados estão conectados a outros dados, em rastrear o uso e os fluxos de dados e em avaliar o risco dos dados.

No caso da privacidade, o objetivo geral é analisar dados com base em relacionamentos, e não apenas em similaridades, de maneiras que os humanos não conseguem. ML e Deep Learning fornecem um conjunto de abordagens que podem ser aplicadas a desafios específicos de dados e para construir um modelo sustentável para problemas de privacidade e proteção de dados que dependem de contexto, mapeamento de relacionamentos e fluxos de dados.  

Nenhuma técnica é uma solução mágica por si só. No entanto, ao combinar componentes de aprendizado de máquina de maneiras que sejam "adequadas à finalidade" — sejam classificadores de árvores aleatórias para melhorar a precisão, correlação e raciocínio; limites de probabilidade para avaliar relacionamentos de dados; agrupamento para amostragem preditiva e análise comparativa da distribuição de dados pessoais; e redes neurais para estabelecer extração e resolução de entidades, bem como pontuação de confiança para equilibrar precisão e recall — as empresas podem construir e sustentar um quadro completo de privacidade de dados.

Homem vs Máquina

Em questões de privacidade e proteção de dados pessoais, os esforços humanos se mostram inadequados para encontrar, classificar ou ordenar informações pessoais. A privacidade depende, antes de tudo, da compreensão de quais informações pessoais uma organização coleta e como essas informações são processadas e utilizadas. Isso requer um inventário preciso dos dados pessoais. Entrevistas e pesquisas só podem construir inventários com base em lembranças – não em registros de dados reais. Uma máquina é mais capaz do que o homem quando se trata de examinar registros de dados dentro de outras máquinas.

Para que uma máquina crie um inventário de dados, é preciso ter a capacidade de analisar qualquer fonte de dados e classificá-los por tipo, pessoa, residência e aplicação, independentemente de residirem em um banco de dados, um compartilhamento de arquivos, um data warehouse ou um serviço de nuvem. Isso geralmente é caracterizado como a construção de um inventário de dados, onde os dados podem ser organizados usando um pivô diferente para melhor compreender seu contexto.

É aqui que as abordagens que podem estabelecer o grau de correlação entre valores de dados amplamente distribuídos, representar graficamente relacionamentos de valores altamente correlacionados por meio do raciocínio e aplicar modelos de aprendizado de máquina para precisão de classificação podem abordar o desafio do conhecimento de dados.

As primeiras tentativas desse tipo de esforço, orientado por máquina, para analisar dados e organizá-los em um inventário abrangente dependiam de tecnologias de indexação e correspondência de padrões prontas para uso. Ferramentas como o Elasticsearch oferecem maneiras simples de indexar terabytes de dados e combinar informações de aparência semelhante usando vários algoritmos de ML.

Embora representem um avanço, essas tentativas iniciais de inventário de dados apresentam falhas irreconciliáveis. Ao tentar resolver o problema da entrada de dados, elas criam novos problemas. Usar um repositório externo para análise é impraticável considerando o volume de dados que a maioria das organizações armazena, pois exige a cópia de grandes quantidades de informações confidenciais para um repositório secundário. Isso também acarreta enormes custos de infraestrutura, necessários para alimentar a indexação. Além disso, cria um grave problema de segurança ao centralizar dados confidenciais em um único local.

No entanto, os problemas não se relacionam apenas às etapas necessárias para realizar a indexação. O valor das descobertas também é limitado. Mesmo um índice completo ajudará a classificar os dados por tipo – mas não por pessoa. Fundamentalmente, a privacidade requer contexto pessoal; requer a compreensão de quais dados são pessoais e a quem pertencem. O que torna os dados pessoais é que eles estão contextualmente associados a um indivíduo: ou seja, são, por definição, sobre, ou por, essa pessoa.

Algoritmos de classificação de ML ingênuos, capazes de combinar padrões, podem ajudar a identificar duas entidades com aparência semelhante, mas não conseguem, por si só, demonstrar correlação com uma pessoa para determinar se os dados constituem informações pessoais. Isso requer um tipo diferente de ML e aprendizado profundo, não disponíveis em ferramentas prontas para uso, como o Elasticsearch.

A grande ideia do BigID ML

 

A privacidade e a proteção de dados pessoais começam com uma inteligência de dados eficaz, capaz de compreender quais dados pessoais uma organização coleta, a quem pertencem e como estão sendo utilizados. Às vezes, isso é caracterizado como um inventário de dados e um registro do processamento de dados, mas vai além disso. Exige a capacidade de localizar, classificar, correlacionar, catalogar e até mesmo rastrear dados à medida que são capturados e processados em uma empresa. Nenhuma dessas tarefas é fácil de começar, e elas se tornam ainda mais difíceis devido à complexidade e à diversidade de onde e como as empresas coletam dados sobre pessoas em seus aplicativos móveis, web e IoT.

Tentar resolver esses problemas iterando em uma única peça do quebra-cabeça representa uma melhoria em alguns aspectos do problema, mas ainda deixa a questão mais ampla do conhecimento de dados por pessoa ou entidade sem solução. Além disso, qualquer abordagem de caixa-preta que não permita a interação com a pontuação de confiança ou o refinamento das metodologias de correlação e da precisão da classificação jamais lidará com as complexidades dos acervos de dados corporativos.

Para avançar em direção ao objetivo de compreender as inter-relações entre dados descobertos e atributos com alto grau de precisão e confiança no contexto de quem são os dados, sem o peso de ruídos desnecessários e falsos positivos, é necessário um aprendizado de máquina específico. A descoberta de dados, a classificação, a correlação de identidades e os requisitos específicos de privacidade, como a verificação de consentimento, dependem de diferentes técnicas, modelos de treinamento, raciocínio e ponderação de entradas. No entanto, esses elementos precisam se encaixar em um modelo coeso, com capacidade de responder a novas entradas de máquina ou humanas, a fim de proporcionar uma proteção de privacidade de dados real e eficaz.

 

Conteúdo