IA generativa (genAI) está poniendo el foco en riesgo de datos no estructurados, seguridad, sensibilidad y usabilidad como nunca antes. Hasta la fecha, la mayor parte de la calidad, integración, gobernanza y análisis de datos se centraban en datos formateados en filas y columnas en bases de datos, almacenes de datos y lagos de datos. Si bien las organizaciones han creído durante mucho tiempo que existe valor en la minería de datos no estructurados en archivos, objetos, imágenes, mensajería y otras aplicaciones de productividad, no se ha hecho nada para buscar el valor oculto. GenAI, con sus modelos complementarios y LLMs, está haciendo por los datos no estructurados lo que el Big Data hizo por... datos estructurados Hace años: descubriendo valor oculto en los datos organizacionales.
Las organizaciones se muestran a la vez cautivadas y reticentes a adoptar genAI para fines internos y externos. Si bien la mayoría de las preocupaciones se centran en la rapidez y la respuesta de genAI, existe un problema mayor que se cierne sobre el tapete: ¿Están los datos específicos preparados para la IA? O, más precisamente, ¿son los datos apropiados y adecuados para...? Formación de los LLM ¿Que alimentan los modelos genAI?
- Adecuación: ¿Deberían utilizarse estos datos en el proceso genAI?
- Idoneidad: ¿Son los datos relevantes para el modelo y los resultados de las respuestas son creíbles y merecen acción?
La idoneidad de los datos no es universal
Datos de los empleados Puede ser adecuado para ejecutivos de RR. HH. de alto nivel, pero no para personal de RR. HH. de nivel inicial, y seguramente no es apropiado para otros departamentos. accesoEn el mundo de los datos no estructurados, información sensible y privada está muy extendido en recursos compartidos de archivos, almacenamiento de objetos, correo electrónico, herramientas de colaboración y mucho más, en su mayoría no administrados ni gobernados. Como Gartner Analista, recibí miles de llamadas sobre gestión de datos no estructurados y ni una sola vez alguien dijo: "¡Vaya! Encontramos datos menos sensibles de lo que pensábamos". Al contrario, la respuesta fue: "¡Vaya! Estamos en serios problemas".
En cuanto a la idoneidad de la alimentación de datos para los LLM, "datos incorrectos, malos resultados" debería ser el lema de la organización para el equipo de genAI. Forrester guía a las organizaciones para: Enfatizar descubrimiento, inventario y clasificación de datosDesarrollar políticas e implementar un proceso con tecnologías de apoyo para descubrir y clasificar los datos de su organización. Para garantizar la protección y el manejo adecuado de los datos confidenciales durante toda su vida útil. ciclo de vidaComprenda qué constituye información confidencial para su organización, identifique qué datos confidenciales posee y determine en qué entornos de datos se encuentran. Además, la clasificación de datos le ayudará a priorizar aplicaciones y activos de TI críticos. Trabaje para que el descubrimiento y la clasificación de datos sean un proceso automatizado y continuo, en lugar de un evento único. – Forrester (Sandy Carielli, Heidi Shey, et al. – TI de alto rendimiento: seguridad, privacidad y resiliencia – 15 de enero de 2024)
BigID ofrece una solución automatizada y mejorada con IA para descubrir, clasificar y catalogar datos rápidamente y al mismo tiempo brindar controles de seguridad y riesgo para garantizar que los conjuntos de datos hayan sido examinados y protegidos exhaustivamente y lleguen al consumo del modelo.

La idoneidad de los datos requiere una comprensión más profunda de la relación entre el modelo y los datos.
Al determinar la idoneidad de los datos para genAI, las organizaciones lo hacen de forma muy selectiva, priorizando casos de uso específicos. La idoneidad para un caso de uso no significa que sea adecuada para todos. Por ejemplo, supongamos que quiero crear un modelo genAI para proporcionar un bot de atención al cliente que ayude con los problemas de soporte. Al buscar y analizar fuentes de datos, la información específica de soporte es la principal prioridad. Actualmente, esto significa que los conjuntos de datos deberán reevaluarse para cada nuevo propósito. La mayoría de los datos no estructurados permanecerán fuera del alcance de los consumidores y sin utilizar hasta que se aborden los problemas de accesibilidad. – Gartner® Superar los riesgos de calidad de datos al utilizar datos semiestructurados y no estructurados para modelos de IA/ML.)
La mayoría de las tecnologías que ayudarán con esto aún están en desarrollo, con la excepción de soluciones como BigID. BigID incluye más de 750 clasificadores OOTB (es fácil crear otros adicionales) que pueden identificar tanto metadatos como elementos de datos en ambos... datos estructurados y no estructuradosBigID también utiliza tecnología de IA para inferir metadatos adicionales. Esto, combinado con La inteligencia artificial de BigID que reconoce la identidad y la agrupación de documentos similar, garantiza que las fuentes de datos estén preparadas para la IA.
Al emprender una nueva iniciativa de genAI, es tan importante prestar atención a los datos que alimentan el modelo como a la indicación/respuesta. Al principio del proceso, es fundamental buscar fuentes de datos apropiadas y adecuadas. Los conjuntos de datos adecuados solo se pueden identificar mediante... descubrimiento de datos, clasificaciónProceso de catalogación y eliminación de riesgos. Los datos adecuados solo se pueden identificar a gran escala mediante soluciones como BigID para iIA consciente de la dentidad, documentos similares, datos diferentes pero relacionados; y hacer esto horas extras para evitar la desviación de los datos.
Para obtener más información sobre cómo BigID ayuda a las organizaciones a garantizar que los datos estén preparados para la IA y sean apropiados y adecuados para genAI: Programe una demostración 1:1 con nuestros expertos hoy.
Gartner, Cómo superar los riesgos de calidad de los datos al utilizar datos semiestructurados y no estructurados para modelos de IA/ML, por Jason Medd, 6 de diciembre de 2022.
GARTNER es una marca registrada y marca de servicio de Gartner, Inc. y/o sus filiales en EE. UU. e internacionalmente, y se utiliza aquí con autorización. Todos los derechos reservados.