Inteligência Artificial Generativa (genAI) está dando destaque a risco de dados não estruturados, segurança, sensibilidade e usabilidade como nunca antes. Até o momento, a maior parte da qualidade, integração, governança e análise de dados se concentrava em dados formatados em linhas e colunas em bancos de dados, data warehouses e data lakes. Embora as organizações há muito acreditem que existe valor na mineração de dados não estruturados em arquivos, objetos, imagens, mensagens e outros aplicativos de produtividade, nada foi feito para explorar esse valor oculto. A GenAI, com seus modelos e recursos complementares, Mestrados em Direito, está fazendo pelos dados não estruturados o que o Big Data fez pelos dados estruturados. dados estruturados Anos atrás – descobrindo o valor oculto nos dados organizacionais.
As organizações estão simultaneamente entusiasmadas e hesitantes em adotar a IA de geração de dados para fins internos e externos. Embora a maioria das preocupações se concentre na rapidez e na capacidade de resposta da IA de geração de dados, há uma questão maior pairando no ar. Os dados em questão estão prontos para a IA, ou, mais precisamente, os dados são apropriados e adequados para...? treinamento de mestrados em direito (LLMs) que alimentam os modelos genAI?
- Adequação: Esses dados devem ser usados no processo genAI?
- Adequação: Os dados são relevantes para o modelo e os resultados das respostas são credíveis e justificam alguma ação?
A adequação dos dados não é universal.
Dados do funcionário Pode ser adequado para executivos seniores de RH, mas não para funcionários de RH iniciantes, e certamente não é apropriado para outros departamentos. acessoNo mundo dos dados não estruturados, informações sensíveis e privadas é comum em compartilhamentos de arquivos, armazenamento de objetos, e-mail, ferramentas de colaboração e muito mais, em sua maioria não gerenciados e sem governança. Como um Gartner Como analista, atendi milhares de ligações sobre gerenciamento de dados não estruturados e nenhuma vez alguém disse: "Nossa, encontramos menos dados sensíveis do que pensávamos". Muito pelo contrário, a resposta era: "Nossa, estamos com um problema sério aqui".
Quando se trata da adequação dos dados que alimentam os LLMs (Learning Lifecycle Management), "dados ruins, resultados ruins" deveria ser um grito de guerra para a equipe da genAI. A Forrester orienta as organizações a,
Dê ênfase Descoberta, inventário e classificação de dadosDesenvolva políticas e implemente um processo com tecnologias de suporte para descobrir e classificar os dados da sua organização. Isso ajudará a garantir a proteção e o tratamento adequado de dados sensíveis durante todo o seu uso. vida útilEntenda o que constitui dados sensíveis para sua organização, identifique quais dados sensíveis você possui e determine em quais ambientes de dados eles existem. Além disso, a classificação de dados ajudará você a priorizar aplicativos críticos e ativos de TI. Trabalhe para tornar a descoberta e a classificação de dados um processo automatizado e contínuo, em vez de um evento isolado.
– Forrester (Sandy Carielli, Heidi Shey, et al – TI de Alto Desempenho: Segurança, Privacidade e Resiliência – 15 de janeiro de 2024)
A BigID oferece uma solução automatizada e aprimorada por IA. para descobrir, classificar e catalogar dados rapidamente, ao mesmo tempo que fornece controles de segurança e risco para garantir que os conjuntos de dados tenham sido completamente analisados e protegidos, estando prontos para serem utilizados pelos modelos.

A adequação dos dados requer uma compreensão mais profunda da relação entre o modelo e os dados.
Ao determinar a adequação dos dados para IA geral, as organizações o fazem de maneira fortemente enviesada para casos de uso específicos. A adequação para um caso de uso não significa que seja adequada para todos. Por exemplo, digamos que eu queira construir um modelo de IA geral para fornecer um chatbot voltado para o cliente, que auxilie em problemas de suporte. Ao procurar e analisar fontes de dados, informações específicas de suporte são priorizadas. Atualmente, isso significa que os conjuntos de dados precisarão ser reanalisados para cada nova finalidade.
A maior parte dos dados não estruturados permanecerá inacessível aos consumidores de dados e não será utilizada ou será inutilizável até que os problemas de acessibilidade sejam resolvidos.
– Gartner® Superando os riscos de qualidade de dados ao usar dados semiestruturados e não estruturados para modelos de IA/ML.
A maioria das tecnologias que auxiliarão nesse processo ainda está em desenvolvimento, com exceção de soluções como o BigID. O BigID já vem com mais de 750 classificadores prontos para uso (e outros são fáceis de criar) que podem identificar tanto metadados quanto elementos de dados em ambos os casos. dados não estruturados e estruturadosA BigID também utiliza tecnologia de IA para inferir metadados adicionais. Isso, combinado com IA com reconhecimento de identidade da BigID e agrupamentos de documentos semelhantes, garantem que as fontes de dados estejam preparadas para IA.
Ao iniciar uma nova iniciativa de IA de geração de dados, é tão importante prestar atenção aos dados que alimentam o modelo quanto aos dados que o estimulam e respondem. No início do processo, é fundamental buscar fontes de dados que sejam apropriadas e adequadas. Conjuntos de dados apropriados só podem ser identificados por meio de... descoberta de dados, classificação, processo de catalogação e mitigação de riscos. Dados adequados podem ser identificados em escala somente usando soluções como o BigID para iIA com reconhecimento de denticidadeDocumentos semelhantes, dados diferentes, porém relacionados; e fazer isso ao longo do tempo para evitar a deriva de dados.
Para saber mais sobre como a BigID auxilia as organizações, garantindo que os dados estejam prontos para IA e sejam adequados e apropriados para a IA de geração — Agende hoje mesmo uma demonstração individual com nossos especialistas.
Gartner, Superando os riscos de qualidade de dados ao usar dados semiestruturados e não estruturados para modelos de IA/ML, por Jason Medd, 06 de dezembro de 2022.
GARTNER é uma marca registrada e marca de serviço da Gartner, Inc. e/ou suas afiliadas nos EUA e internacionalmente, e é usada aqui com permissão. Todos os direitos reservados.
