Pular para o conteúdo
Ver todas as postagens

É seu Dados não estruturados Seguro e IA Preparar?

IA generativa (genAI) está colocando os holofotes em risco de dados não estruturados, segurança, sensibilidade e usabilidade como nunca antes. Até o momento, a maior parte da qualidade, integração, governança e análise de dados se concentrava em dados formatados em linhas e colunas em bancos de dados, data warehouses e data lakes. Embora as organizações acreditem há muito tempo que há valor em minerar dados não estruturados em arquivos, objetos, imagens, mensagens e outros aplicativos de produtividade, nada foi feito para buscar o valor oculto. GenAI, com modelos e Mestrado em Direito, está fazendo pelos dados não estruturados o que o Big Data fez por dados estruturados anos atrás – descobrindo valor oculto em dados organizacionais.

Veja o BigID em ação

As organizações estão fascinadas e hesitantes em adotar a genAI para fins internos e externos. Embora a maioria das preocupações esteja voltada para a rapidez e a resposta da genAI, há uma questão maior pairando em segundo plano. Os dados direcionados estão prontos para a IA, ou mais precisamente, os dados são apropriados e adequados para? treinando os LLMs que alimentam os modelos genAI?

  • Adequação: Esses dados devem ser usados no processo genAI?
  • Adequação: Os dados são pertinentes ao modelo e os resultados das respostas são confiáveis e dignos de ação?

A adequação dos dados não é universal

Dados do funcionário pode ser adequado para executivos seniores de RH, mas não para pessoal de RH de nível básico, e certamente não é apropriado para outros departamentos acesso. No mundo dos dados não estruturados, informações confidenciais e privadas é abundante em compartilhamentos de arquivos, armazenamento de objetos, e-mail, ferramentas de colaboração e muito mais, em sua maioria não gerenciados e não governados. Como um Gartner Analista, atendi milhares de ligações sobre gerenciamento de dados não estruturados e em nenhum momento alguém disse: "Nossa, encontramos dados menos sensíveis do que pensávamos". Muito pelo contrário, a resposta foi: "Nossa, estamos em sérios apuros".

Quando se trata da adequação da alimentação de dados para LLMs, "dados ruins, resultados ruins" deve ser o lema da equipe da genAI. A Forrester orienta as organizações a:

Enfatizar descoberta, inventário e classificação de dados. Desenvolva uma política e implemente um processo com tecnologias de suporte para descobrir e classificar os dados da sua organização. Para ajudar a garantir que você proteja e trate adequadamente os dados confidenciais ao longo de sua vida útil, ciclo de vida, entenda o que constitui dados sensíveis para sua organização, identifique quais dados sensíveis você possui e determine em quais ambientes de dados eles estão presentes. Além disso, a classificação de dados ajudará você a priorizar aplicativos e ativos de TI críticos. Trabalhe para tornar a descoberta e a classificação de dados um processo automatizado e contínuo, em vez de um evento único.

– Forrester (Sandy Carielli, Heidi Shey, et al – TI de alto desempenho: segurança, privacidade e resiliência – 15 de janeiro de 2024)


A BigID oferece uma solução automatizada e aprimorada por IA para descobrir, classificar e catalogar dados rapidamente, ao mesmo tempo em que fornece controles de segurança e risco para garantir que os conjuntos de dados tenham sido completamente interrogados e protegidos e cheguem ao consumo do modelo.

A adequação dos dados requer uma compreensão mais profunda da relação entre o modelo e os dados

Ao determinar a adequação dos dados para genAI, as organizações o fazem de forma bastante enviesada em relação a casos de uso específicos. A adequação para um caso de uso não significa que seja adequada para todos. Por exemplo, digamos que eu queira construir um modelo de genAI para fornecer um bot voltado para o cliente para auxiliar em problemas de suporte. Ao procurar e analisar fontes de dados, as informações específicas de suporte são prioritárias. A partir de hoje, isso significa que os conjuntos de dados precisarão ser analisados novamente para cada nova finalidade.

A maioria dos dados não estruturados permanecerá fora do alcance dos consumidores de dados e não será utilizada ou poderá ser utilizada até que os problemas de acessibilidade sejam resolvidos.

– Gartner® Superando riscos de qualidade de dados ao usar dados semiestruturados e não estruturados para modelos de IA/ML.)


A maioria das tecnologias que ajudarão com isso ainda está em desenvolvimento, com exceção de soluções como o BigID. O BigID vem com mais de 750 classificadores OOTB (outros são fáceis de criar) que podem identificar metadados e elementos de dados em ambos os sistemas. dados estruturados e não estruturadosO BigID também utiliza tecnologia de IA para inferir metadados adicionais. Isso, combinado com IA com reconhecimento de identidade da BigID e agrupamento de documentos semelhantes, garante que as fontes de dados estejam prontas para IA.

Ao embarcar em uma nova iniciativa de IA Gen, é tão importante prestar atenção aos dados que alimentam o modelo quanto ao prompt/resposta. No início do processo, é importante procurar fontes de dados que sejam apropriadas e adequadas. Conjuntos de dados apropriados só podem ser identificados por meio de descoberta de dados, classificação, catalogação e processo de redução de risco. Dados adequados só podem ser identificados em escala usando soluções como o BigID para iIA com reconhecimento de identidade, documentos semelhantes, dados diferentes, mas relacionados; e fazer isso com horas extras para evitar desvios de dados.

Para saber mais sobre como o BigID auxilia as organizações garantindo que os dados estejam prontos para IA e sejam apropriados e adequados para genAI — Agende uma demonstração individual com nossos especialistas hoje mesmo.

Gartner, Superando riscos de qualidade de dados ao usar dados semiestruturados e não estruturados para modelos de IA/ML, por Jason Medd, 06 de dezembro de 2022.

GARTNER é uma marca registrada e uma marca de serviço da Gartner, Inc. e/ou de suas afiliadas nos EUA e internacionalmente e é usada neste documento com permissão. Todos os direitos reservados.

Conteúdo

Guia de IA para CISOs

Guia de download