Generative KI (genAI) richtet das Scheinwerferlicht auf Risiko unstrukturierter Daten, Sicherheit, Empfindlichkeit und Benutzerfreundlichkeit wie nie zuvor. Bisher konzentrierten sich Datenqualität, Integration, Governance und Analytik größtenteils auf zeilen- und spaltenformatierte Daten in Datenbanken, Data Warehouses und Data Lakes. Obwohl Unternehmen schon lange davon überzeugt sind, dass das Mining unstrukturierter Daten in Dateien, Objekten, Bildern, Messaging und anderen Produktivitätsanwendungen wertvoll ist, wurde bisher nichts unternommen, um den verborgenen Wert zu nutzen. GenAI, mit begleitenden Modellen und LLMs, leistet für unstrukturierte Daten das, was Big Data für strukturierte Daten vor Jahren – Aufdeckung verborgener Werte in Unternehmensdaten.
Organisationen sind sowohl begeistert als auch zögerlich, genAI für interne und externe Zwecke einzusetzen. Obwohl sich die meisten Bedenken auf die Schnelligkeit und Reaktion von genAI beziehen, lauert im Hintergrund ein größeres Problem. Sind die Zieldaten KI-fähig, oder genauer gesagt: Sind die Daten angemessen und geeignet für Ausbildung der LLMs die die GenAI-Modelle speisen?
- Angemessenheit: Sollten diese Daten im genAI-Prozess verwendet werden?
- Eignung: Sind die Daten für das Modell relevant und sind die Ergebnisse der Antworten glaubwürdig und handlungswürdig?
Die Angemessenheit der Daten ist nicht universell
Mitarbeiterdaten könnte für leitende HR-Führungskräfte geeignet sein, aber nicht für HR-Anfänger, und es ist sicher nicht angemessen für andere Abteilungen, ZugangIn der Welt der unstrukturierten Daten sensible und private Informationen ist weit verbreitet in meist nicht verwalteten und unkontrollierten Dateifreigaben, Objektspeichern, E-Mails, Collaboration-Tools und vielem mehr. Als Gartner Als Analyst habe ich Tausende von Anrufen zum Umgang mit unstrukturierten Daten entgegengenommen und nicht ein einziges Mal hat jemand gesagt: „Wow, wir haben weniger sensible Daten gefunden, als wir dachten.“ Im Gegenteil, die Antwort war: „Wow, wir stecken hier in ernsthaften Schwierigkeiten.“
Wenn es um die Angemessenheit der Datenversorgung von LLMs geht, sollte „schlechte Daten, schlechte Ergebnisse“ ein Leitspruch für das genAI-Team sein. Forrester berät Unternehmen zu: Betonen Datenermittlung, -inventarisierung und -klassifizierungEntwickeln Sie Richtlinien und implementieren Sie einen Prozess mit unterstützenden Technologien zur Erkennung und Klassifizierung der Daten Ihres Unternehmens. Um sicherzustellen, dass Sie sensible Daten während ihrer gesamten Nutzungsdauer schützen und angemessen behandeln LebenszyklusVerstehen Sie, welche Daten für Ihr Unternehmen vertraulich sind, identifizieren Sie Ihre sensiblen Daten und bestimmen Sie, in welchen Datenumgebungen sie vorhanden sind. Darüber hinaus hilft Ihnen die Datenklassifizierung dabei, kritische Anwendungen und IT-Ressourcen zu priorisieren. Arbeiten Sie darauf hin, die Datenermittlung und -klassifizierung zu einem automatisierten und kontinuierlichen Prozess zu machen, anstatt ein einmaliges Ereignis zu sein. – Forrester (Sandy Carielli, Heidi Shey, et al – Hochleistungs-IT: Sicherheit, Datenschutz und Belastbarkeit – 15. Januar 2024)
BigID bietet eine KI-gestützte und automatisierte Lösung zum schnellen Entdecken, Klassifizieren und Katalogisieren von Daten bei gleichzeitiger Bereitstellung von Sicherheits- und Risikokontrollen, um sicherzustellen, dass Datensätze gründlich abgefragt und geschützt wurden und für die Modellnutzung verfügbar sind.

Die Eignung der Daten erfordert ein tieferes Verständnis der Beziehung zwischen dem Modell und den Daten
Bei der Beurteilung der Eignung von Daten für GenAI orientieren sich Organisationen stark an spezifischen Anwendungsfällen. Die Eignung für einen Anwendungsfall bedeutet nicht automatisch, dass sie für alle anderen geeignet ist. Angenommen, ich möchte ein GenAI-Modell erstellen, um einen kundenorientierten Bot für Supportanfragen bereitzustellen. Bei der Suche und Analyse von Datenquellen stehen supportspezifische Informationen im Vordergrund. Das bedeutet, dass Datensätze für jeden neuen Zweck neu analysiert werden müssen. Die meisten unstrukturierten Daten bleiben für Datenkonsumenten unerreichbar und werden nicht oder nur unzureichend genutzt, bis die Probleme mit der Zugänglichkeit gelöst sind. – Gartner®: Überwindung von Datenqualitätsrisiken bei der Verwendung halbstrukturierter und unstrukturierter Daten für KI/ML-Modelle.)
Die meisten Technologien, die dabei helfen, befinden sich noch in der Entwicklung, mit Ausnahme von Lösungen wie BigID. BigID verfügt über über 750 OOTB-Klassifikatoren (weitere sind leicht zu erstellen), die sowohl Metadaten als auch Datenelemente in beiden identifizieren können. unstrukturierte und strukturierte DatenBigID nutzt KI-Technologie, um zusätzliche Metadaten abzuleiten. Dies, kombiniert mit Identitätsbewusste KI von BigID und ähnliche Dokumentclusterung stellt sicher, dass die Datenquellen KI-fähig sind.
Bei der Einführung einer neuen GenAI-Initiative ist es ebenso wichtig, auf die Daten zu achten, die das Modell speisen, wie auf die Eingabeaufforderung/Antwort. Schon früh im Prozess ist es wichtig, nach geeigneten Datenquellen zu suchen. Geeignete Datensätze können nur über die Datenermittlung, Einstufung, Katalogisierung und Risikominderungsprozess. Geeignete Daten können nur durch den Einsatz von Lösungen wie BigID für i in großem Maßstab identifiziert werdenzahnbewusste KI, ähnliche Dokumente, unterschiedliche, aber dennoch verwandte Daten; und dies im Übermaß tun, um Datendrift zu vermeiden.
Um mehr darüber zu erfahren, wie BigID Unternehmen dabei unterstützt, sicherzustellen, dass ihre Daten KI-fähig und für genAI geeignet sind – Planen Sie noch heute eine 1:1-Demo mit unseren Experten.
Gartner, Überwindung von Datenqualitätsrisiken bei der Verwendung halbstrukturierter und unstrukturierter Daten für KI/ML-Modelle, von Jason Medd, 6. Dezember 2022.
GARTNER ist eine eingetragene Marke und Dienstleistungsmarke von Gartner, Inc. und/oder seinen Tochtergesellschaften in den USA und international und wird hier mit Genehmigung verwendet. Alle Rechte vorbehalten.