Skip to content
Voir tous les articles

Gouvernance des données pour L'IA conversationnelle et les LLM (Grands modèles de langage)

ChatGPT a révolutionné l'IA en quelques mois. Il permet de nouveaux frameworks d'IA générative comme Grands modèles de langage (LLM) pour se faire passer pour un humain. Traditionnellement, les LLM sont entraînés à l'aide d'un grand volume de données non supervisées, ainsi que d'un ensemble plus restreint de données supervisées, étiquetées par des humains. Parallèlement, l'IA conversationnelle intègre désormais également des données non structurées, notamment des référentiels comme Office 365, Slack, des e-mails, des fichiers, des PDF, etc.

Pour les organisations qui expérimentent les LLM, cela présente de nouveaux risques. Contrairement aux frameworks d'IA traditionnels qui s'appuient sur des données structurées, l'IA se concentre sur l'analyse de données non structurées.   

Cela met en évidence un nouveau vecteur de risque : former des maîtres de conférences sur les données clients, sur les données clients et sur les données réglementées – autrement dit, utiliser des données hors de leur finalité – peut porter atteinte à la vie privée des consommateurs et accroître les risques liés aux données connues et inconnues. Même la formation des maîtres de conférences sur la propriété intellectuelle confidentielle augmente probablement le risque de fuite, de violation ou de piratage d'informations confidentielles.

Et si vous pouviez former des LLM sur seulement Les données sont-elles sûres à utiliser ? Définissez automatiquement les ensembles de données sûrs pour l'entraînement, en gérant efficacement les données entrant dans vos ensembles de données d'entrée d'IA.

Avec BigID, c'est possible. BigID aide les organisations. rechercher, cataloguer, filtrer et gouverner les données structurées pour l'IA rationnelle et les données non structurées pour l'IA conversationnelle plus récente. BigID permet aux clients de étendre la gouvernance et la sécurité des données à l'IA conversationnelle moderne et aux LLM, conduire l’innovation de manière responsable. 

BigID catalogue toutes les données structurées et non structurées : y compris les fichiers, les images, les documents, les e-mails, etc., y compris les données utilisées pour alimenter l'IA générative.

Les clients peuvent classer, étiqueter et marquer les données Par type, réglementation, sensibilité et même finalité d'utilisation, qu'il s'agisse de données structurées, non structurées ou de tout autre type de données. Il est ainsi plus facile que jamais d'identifier et d'étiqueter les données sensibles relatives aux clients, à la confidentialité, à la réglementation, à la propriété intellectuelle, etc. Les organisations peuvent ainsi utiliser des ensembles de données sélectionnés et appropriés pour former des LLM : des données plus pertinentes, à faible risque et qui génèrent des résultats plus précis.  

Vous pouvez par exemple choisir d'exclure les données RH sensibles et d'éviter de compromettre les données des employés collectées et étiquetées. Vous pouvez également orienter les LLM vers des données publiques non confidentielles, garantissant ainsi qu'aucun élément de leur formation ne compromettra la sécurité ou la confidentialité.

À mesure que l'IA et le ML deviennent plus puissants – grâce au GPT et à la formation open source – il est plus important que jamais de gérer, de protéger et de gouverner les données qui alimentent l'avenir.