O ChatGPT revolucionou a IA em questão de meses. Ele permite novas estruturas de IA generativas como Grandes Modelos de Linguagem (LLMs) para essencialmente se passarem por humanos. Tradicionalmente, os LLMs são treinados usando um grande volume de dados não supervisionados, juntamente com um conjunto menor de dados supervisionados – dados rotulados por humanos. Enquanto isso, a IA conversacional agora também incorpora dados não estruturados: incluindo repositórios como Office365, Slack, e-mail, arquivos, PDFs e muito mais.
Para organizações que estão experimentando LLMs, isso apresenta novos riscos. Ao contrário das estruturas tradicionais de IA que dependem de dados estruturados como entrada, a IA se concentra na análise de dados não estruturados.
Isso destaca um novo vetor de risco: treinar LLMs em dados de clientes, dados de consumidores e dados regulamentados – essencialmente usando dados fora da finalidade específica – pode violar a privacidade do consumidor e acelerar o risco sobre os dados que você conhece e os que você desconhece. Até mesmo treinar LLMs em propriedade intelectual confidencial provavelmente aumenta o risco de vazamento, violação ou invasão de informações confidenciais.
E se você pudesse treinar LLMs em apenas Os dados estão seguros para uso? Defina automaticamente quais conjuntos de dados são seguros para treinamento, controlando efetivamente os dados que entram nos seus conjuntos de dados de entrada de IA.
Com o BigID, você pode. O BigID ajuda organizações encontrar, catalogar, filtrar e governar dados estruturados para IA racional e dados não estruturados para IA conversacional mais recente. O BigID permite que os clientes estender a governança e a segurança de dados para IA conversacional moderna e LLMs, impulsionando a inovação de forma responsável.
O BigID cataloga todos os dados estruturados e não estruturados: incluindo arquivos, imagens, documentos, e-mails e muito mais, incluindo os dados usados para alimentar a IA generativa.
Os clientes podem classificar, rotular e marcar dados por tipo, regulamentação, sensibilidade e até mesmo finalidade de uso – em dados estruturados, dados não estruturados e em todos os lugares intermediários. Isso torna mais fácil do que nunca identificar e rotular dados sensíveis de clientes, privacidade, regulamentados, propriedade intelectual e muito mais. Dessa forma, as organizações podem usar conjuntos de dados apropriados e selecionados para treinar LLMs: dados que serão mais relevantes, de baixo risco e gerarão resultados mais precisos.
Você pode optar por excluir dados sensíveis de RH, por exemplo, e evitar comprometer os dados coletados e marcados dos funcionários. Ou direcionar os LLMs para dados públicos não confidenciais, garantindo que nada do que eles treinarem comprometa a segurança ou a privacidade.
À medida que a IA e o ML se tornam mais poderosos — por meio de GPT e treinamento de código aberto — é mais importante do que nunca gerenciar, proteger e governar os dados que estão gerando o futuro.