O ChatGPT revolucionou a IA em questão de meses. Ele permite novas estruturas de IA generativa como Modelos de linguagem de grande porte (Métodos de Aprendizagem Baseados em Linguagem) para essencialmente imitar um humano. Tradicionalmente, os Modelos de Aprendizagem Baseados em Linguagem são treinados usando um grande volume de dados não supervisionados, juntamente com um conjunto menor de dados supervisionados – dados rotulados por humanos. Enquanto isso, a IA conversacional agora também incorpora dados não estruturados: incluindo repositórios como Office 365, Slack, e-mail, arquivos, PDFs e muito mais.
Para organizações que experimentam modelos de aprendizado de máquina (LLMs), isso introduz novos riscos. Ao contrário das estruturas tradicionais de IA que dependem de dados estruturados como entrada, trata-se de analisar dados não estruturados para IA.
Isso destaca um novo vetor de risco: treinar profissionais de segurança da informação (LLMs) com base em dados de clientes, dados de consumidores e dados regulamentados — essencialmente, usar dados fora da finalidade prevista — pode violar a privacidade do consumidor e acelerar o risco tanto em dados conhecidos quanto em dados desconhecidos. Mesmo treinar LLMs com base em propriedade intelectual confidencial provavelmente aumenta o risco de que essas informações confidenciais sejam vazadas, violadas ou hackeadas.
E se você pudesse treinar mestres em Direito (LLMs) em apenas Os dados são seguros para uso? Defina automaticamente quais conjuntos de dados são seguros para treinamento, controlando efetivamente os dados que entram em seus conjuntos de dados de entrada de IA.
Com o BigID, você pode. O BigID ajuda organizações. Encontrar, catalogar, filtrar e governar dados estruturados para IA racional e dados não estruturados para IA conversacional mais recente. A BigID permite que os clientes Ampliar a governança e a segurança de dados para IA conversacional moderna e LLMs.Impulsionando a inovação de forma responsável.
O BigID cataloga todos os dados estruturados e não estruturados: incluindo arquivos, imagens, documentos, e-mails e muito mais – inclusive os dados usados para alimentar a IA generativa.
Os clientes podem Classificar, rotular e etiquetar dados Por tipo, regulamentação, sensibilidade e até mesmo finalidade de uso – em dados estruturados, não estruturados e em todas as situações intermediárias. Isso torna mais fácil do que nunca identificar e rotular dados sensíveis de clientes, privacidade, dados regulamentados, propriedade intelectual e muito mais. Dessa forma, as organizações podem usar conjuntos de dados selecionados e apropriados para treinar modelos de aprendizado de máquina: dados que serão mais relevantes, de baixo risco e que gerarão resultados mais precisos.
Você pode optar por excluir dados sensíveis de RH, por exemplo, e evitar comprometer os dados dos funcionários que são coletados e etiquetados. Ou direcionar os LLMs para dados públicos não confidenciais, garantindo que nada do que for usado no treinamento comprometa a segurança ou a privacidade.
À medida que a IA e o ML se tornam mais poderosos – por meio do GPT e do treinamento de código aberto – torna-se ainda mais importante gerenciar, proteger e governar os dados que estão moldando o futuro.