Skip to content
Voir tous les articles

Est-ce que votre Données non structurées Sécurisé et AI Prêt?

IA générative (genAI) met en lumière risque lié aux données non structurées, sécurité, sensibilité et une facilité d'utilisation sans précédent. Jusqu'à présent, la qualité, l'intégration, la gouvernance et l'analyse des données étaient principalement centrées sur des données formatées en lignes et en colonnes dans des bases de données, des entrepôts de données et des lacs de données. Bien que les organisations croient depuis longtemps à la valeur de l'exploitation des données non structurées contenues dans les fichiers, les objets, les images, la messagerie et autres applications de productivité, rien n'a été fait pour exploiter cette valeur cachée. GenAI, avec ses modèles et LLM, fait pour les données non structurées ce que le Big Data a fait pour données structurées il y a des années – découvrir la valeur cachée des données organisationnelles.

Voir BigID en action

Les organisations sont à la fois enthousiastes et réticentes à adopter l'IA de génération à des fins internes et externes. Si la plupart des inquiétudes portent sur la rapidité et la réactivité de l'IA de génération, une question plus vaste se profile en arrière-plan : les données ciblées sont-elles prêtes pour l'IA ? Plus précisément, les données sont-elles appropriées et adaptées ? formation des LLM qui alimentent les modèles genAI ?

  • Adéquation : ces données doivent-elles être utilisées dans le processus genAI ?
  • Adéquation : les données sont-elles pertinentes pour le modèle et les résultats des réponses sont-ils crédibles et dignes d’action ?

La pertinence des données n’est pas universelle

Données des employés Cela pourrait convenir aux cadres supérieurs des RH, mais pas au personnel RH débutant, et ce n'est certainement pas approprié pour les autres départements. accéderDans le monde des données non structurées, informations sensibles et privées est répandu dans les partages de fichiers, le stockage d'objets, la messagerie électronique, les outils de collaboration, et bien plus encore, qui sont pour la plupart non gérés et non gouvernés. Gartner En tant qu'analyste, j'ai reçu des milliers d'appels concernant la gestion des données non structurées, et personne ne m'a dit : « Waouh, nous avons trouvé des données moins sensibles que prévu. » Au contraire, la réponse a été : « Waouh, nous sommes dans une situation délicate. »

En matière de pertinence des données alimentant les LLM, « données erronées, mauvais résultats » devrait être le mot d'ordre de l'équipe genAI. Forrester conseille aux organisations :

Souligner découverte, inventaire et classification des donnéesÉlaborez une politique et mettez en œuvre un processus, avec des technologies de soutien, pour découvrir et classer les données de votre organisation. Pour garantir la protection et le traitement approprié des données sensibles tout au long de leur durée de vie. cycle de vie, comprenez ce qui constitue des données sensibles pour votre organisation, identifiez celles dont vous disposez et déterminez les environnements de données dans lesquels elles se trouvent. De plus, la classification des données vous aidera à prioriser les applications et les ressources informatiques critiques. Œuvrez pour que la découverte et la classification des données deviennent un processus automatisé et continu, plutôt qu'un événement ponctuel.

– Forrester (Sandy Carielli, Heidi Shey, et al. – Informatique haute performance : sécurité, confidentialité et résilience – 15 janvier 2024)


BigID fournit une solution automatisée et améliorée par l'IA pour découvrir, classer et cataloguer rapidement les données tout en fournissant des contrôles de sécurité et de risque pour garantir que les ensembles de données ont été soigneusement interrogés et protégés et atteignent la consommation du modèle.

L'adéquation des données nécessite une compréhension plus approfondie de la relation entre le modèle et les données

Lorsqu'elles déterminent l'adéquation des données à la genAI, les organisations privilégient fortement les cas d'utilisation spécifiques. L'adéquation à un cas d'utilisation ne garantit pas sa compatibilité avec tous les cas d'utilisation. Par exemple, imaginons que je souhaite créer un modèle genAI pour fournir un bot client capable de répondre aux problèmes de support. Lorsque je recherche et analyse les sources de données, les informations spécifiques au support sont prioritaires. À l'heure actuelle, cela signifie que les ensembles de données devront être réanalysés pour chaque nouvel objectif.

La plupart des données non structurées resteront hors de portée des consommateurs de données et inutilisées ou inutilisables jusqu’à ce que les problèmes d’accessibilité soient résolus.

– Gartner® Surmonter les risques liés à la qualité des données lors de l'utilisation de données semi-structurées et non structurées pour les modèles d'IA/ML.)


La plupart des technologies permettant d'y parvenir sont encore en cours de développement, à l'exception de solutions comme BigID. BigID propose plus de 750 classificateurs prêts à l'emploi (d'autres sont faciles à créer) capables d'identifier à la fois les métadonnées et les éléments de données. données non structurées et structuréesBigID utilise également l'IA pour déduire des métadonnées supplémentaires. Ceci, combiné à L'IA consciente de l'identité de BigID et un regroupement de documents similaire, garantit que les sources de données sont prêtes pour l'IA.

Lors du lancement d'une nouvelle initiative genAI, il est tout aussi important de prêter attention aux données qui alimentent le modèle qu'à la réponse. Dès le début du processus, il est essentiel de rechercher des sources de données pertinentes et adaptées. Seul le découverte de données, classification, processus de catalogage et de réduction des risques. Des données pertinentes ne peuvent être identifiées à grande échelle qu'en utilisant des solutions comme BigID pour iIA consciente de l'identité, des documents similaires, des données différentes mais liées ; et faire cela au fil du temps pour éviter la dérive des données.

Pour en savoir plus sur la manière dont BigID aide les organisations en garantissant que les données sont prêtes pour l'IA et sont à la fois appropriées et adaptées à la genAI — planifiez une démonstration 1:1 avec nos experts dès aujourd'hui.

Gartner, Surmonter les risques liés à la qualité des données lors de l'utilisation de données semi-structurées et non structurées pour les modèles d'IA/ML, par Jason Medd, 6 décembre 2022.

GARTNER est une marque déposée et une marque de service de Gartner, Inc. et/ou de ses filiales aux États-Unis et dans le monde. Tous les droits sont réservés.

Contenu

Guide du RSSI sur l'IA

Télécharger le guide