ChatGPT ha revolucionado la IA en cuestión de meses. Permite nuevos marcos de IA generativa como Modelos de lenguaje grandes (LLM) para, básicamente, imitar a un humano. Tradicionalmente, los LLM se entrenan utilizando un gran volumen de datos no supervisados junto con un conjunto más pequeño de datos supervisados, es decir, datos etiquetados por humanos. Mientras tanto, la IA conversacional ahora también incorpora datos no estructurados, incluyendo repositorios como Office365, Slack, correo electrónico, archivos, PDF y más.
Para las organizaciones que experimentan con LLM, esto presenta nuevos riesgos. A diferencia de los marcos de IA tradicionales que dependen de datos estructurados como entrada, se trata de analizar datos no estructurados para la IA.
Esto pone de relieve un nuevo vector de riesgo: capacitar a los LLM en datos de clientes, datos regulados (en esencia, usar datos para fines distintos a los previstos) puede violar la privacidad del consumidor y aumentar el riesgo sobre los datos que conoce y los que desconoce. Incluso capacitar a los LLM en propiedad intelectual confidencial probablemente aumenta el riesgo de que la información confidencial se filtre, viole o sea pirateada.
¿Qué pasaría si se pudiera capacitar a los LLM en? solo ¿Son seguros los datos para su uso? Define automáticamente qué conjuntos de datos son seguros para el entrenamiento, gestionando eficazmente los datos que se incorporan a tus conjuntos de datos de entrada de IA.
Con BigID, puedes. BigID ayuda a las organizaciones. buscar, catalogar, filtrar y gobernar datos estructurados para IA racional y datos no estructurados para la IA conversacional más reciente. BigID permite a los clientes Extender la gobernanza y la seguridad de los datos a la IA conversacional moderna y a los LLMImpulsando la innovación de forma responsable.
BigID cataloga todos los datos estructurados y no estructurados: incluidos archivos, imágenes, documentos, correos electrónicos y más, incluidos los datos que se utilizan para impulsar la IA generativa.
Los clientes pueden clasificar, etiquetar y rotular datos Por tipo, regulación, sensibilidad e incluso propósito de uso, en datos estructurados, no estructurados y en todos los ámbitos. Esto facilita más que nunca la identificación y el etiquetado de datos sensibles de clientes, privacidad, regulados, propiedad intelectual, etc. De esta manera, las organizaciones pueden utilizar conjuntos de datos seleccionados y adecuados para entrenar a los LLM: datos más relevantes, de bajo riesgo y que generarán resultados más precisos.
Puede optar por excluir datos confidenciales de RR. HH., por ejemplo, y evitar comprometer los datos de los empleados recopilados y etiquetados. O bien, puede dirigir a los LLM a datos públicos no confidenciales, garantizando que nada de lo que se les haya capacitado pueda comprometer la seguridad o la privacidad.
A medida que la IA y el ML se vuelven más poderosos (a través de GPT y la capacitación de código abierto), es más importante que nunca administrar, proteger y gobernar los datos que sustentan el futuro.