Qualität der Daten ist zu einem wichtigen Bestandteil eines jeden Unternehmens geworden. Sie sind ein wertvolles Gut, das Unternehmen nutzen und schützen müssen. Unternehmen aller Branchen haben mit immer komplexeren Herausforderungen bei der Datenverwaltung zu kämpfen, z. B. mit der Verbesserung der Datenqualität und dem Risikomanagement.
Was ist Datenqualität?
Datenqualität ist das Ausmaß, in dem Daten vollständig, konsistent und genau sind. Sie ist ein Maß dafür, wie gut die Daten die Anforderungen ihres Verwendungszwecks erfüllen.
Unternehmen treffen Entscheidungen auf der Grundlage von Daten - und diese Entscheidungen sind nur so gut wie die Daten, auf denen sie beruhen. Wenn ein Unternehmen eine Entscheidung auf der Grundlage minderwertiger Daten trifft, wird das Ergebnis wahrscheinlich nicht den Erwartungen entsprechen.
Die Datenqualität misst, wie zuverlässig ein Datensatz ist, um eine datengestützte Entscheidung zu treffen - oder mit einem Wort, die Vertrauenswürdigkeit der Daten.
Warum ist Datenqualität wichtig?
Nach Angaben von GartnerEine schlechte Datenqualität kostet Unternehmen jährlich $12,9 Millionen Euro und zieht eine Reihe negativer Folgen nach sich, wie z. B. beschädigte Kundenbeziehungen, schlecht informierte Geschäftsentscheidungen und verworrene Datenökosysteme.
Glücklicherweise hat die Datenqualität ihre beste Zeit hinter sich, denn immer mehr Unternehmen konzentrieren sich darauf, wie sie zu besseren Geschäftsentscheidungen beitragen kann. Gartner prognostiziert, dass in diesem Jahr das metrikgestützte Datenqualitäts-Tracking um satte 60 Prozent zunehmen wird.
Unternehmen können den Wettbewerbsvorteil nutzen, den ihnen die Verbesserung der Datenqualität verschafft - und jetzt ist der richtige Zeitpunkt dafür.
Dimensionen der Datenqualität
Datenqualitätsdimensionen sind die Merkmale von Daten, die ihre Qualität bestimmen. Diese Dimensionen können in sechs Kategorien eingeteilt werden:
- Genauigkeit
- Rechtzeitigkeit
- Konsistenz
- Vollständigkeit
- Gültigkeit
- Einzigartigkeit
Im Folgenden finden Sie einige Anwendungsfälle aus verschiedenen Branchen, die zeigen, wie jedes dieser Attribute die Datenentscheidungen eines Unternehmens beeinflussen kann. Die Definitionen dieser sechs Aspekte können leicht variieren, je nachdem, wen Sie fragen oder in welchem Kontext sie angewandt werden, aber wir definieren sie folgendermaßen:
Genauigkeit - Sind die Daten korrekt?
Korrekt bedeutet, dass die gesammelten Informationen korrekt sind und nicht durch menschliches Versagen oder maschinelle Fehlfunktionen während der Sammlung, Verarbeitung, Speicherung, Analyse oder Übertragung verfälscht wurden.
Eine Fluggesellschaft möchte einen Sommerschlussverkauf veranstalten. Die Marketingabteilung wird Werbematerialien mit Rabattcodes der Fluggesellschaft an Kunden versenden, die in den letzten drei Jahren geflogen sind.
Die Kommunikation mit dem Kunden hängt davon ab, dass man genaue Kontaktinformationen - in diesem Fall E-Mail- oder Postanschriften. Wenn die Daten nicht korrekt sind, kann die Werbeaktion nicht an die vorgesehenen Kunden geliefert werden - und die Fluggesellschaft wird ihre Ziele für die Werbeaktion nicht erreichen.
Aktualität - Wie aktuell sind die Daten?
Rechtzeitig bedeutet, dass vor der Nutzung genügend Zeit zur Verfügung steht, um gegebenenfalls Änderungen vornehmen zu können.
Die Bildgebungsabteilung eines Krankenhauses plant Patienten für MRTs ein. Das Krankenhaus hat nur ein MRT-Gerät, und das ist immer sehr gefragt.
Wenn Ärzte MRTs für ihre Patienten bestellen, gehen die Anfragen an die Planungsabteilung. Die Planungsabteilung muss mit möglichst aktuellen Daten arbeiten, um über stornierte Pläne oder Terminkonflikte informiert zu sein. Andernfalls ist sie nicht in der Lage, die Nutzung einer knappen Ressource zu optimieren, um die besten Ergebnisse zu erzielen. Patientenbetreuung.
Konsistenz - Sind die Daten in verwandten Datensätzen identisch?
Konsistent bedeutet, dass ähnliche Arten von Datensätzen immer ähnliche Elemente von einem Datensatz zum anderen innerhalb einer bestimmten Datensatzart enthalten.
Ein Distributor für verpackte Waren optimiert die Lieferwege. Die Daten zeigen, dass ein Lagerhaus in "Portland" liegt.
Die Lagerhauscodes müssen in allen Datensätzen konsistent sein, so dass, wenn ein Datensatz zeigt, dass sich das Lagerhaus in Portland, Oregon, befindet, ein anderer verwandter Datensatz nicht nahelegt, dass dasselbe Lagerhaus in Portland, Maine, liegt.
Wenn die Standortdaten nicht konsistent sind, sind die Lieferrouten ungenau und eines der Lager verpasst seine Lieferung.
Vollständigkeit - Enthält der Datensatz irgendwelche Nullwerte?
Vollständig bedeutet, dass alle für eine bestimmte Aufgabe oder einen bestimmten Zweck erforderlichen Komponenten vorhanden sind.
Ein Telekommunikationsunternehmen analysiert abgebrochene Anrufe, um die Kundenzufriedenheit und die zu erwartende Abwanderungsrate vorherzusagen. Während des jüngsten Hurrikans brach die Verbindung zu einer beträchtlichen Anzahl von Mobilfunkmasten im Südosten des Landes ab.
Die Naturkatastrophe verursachte zwar eine Reihe von Gesprächsabbrüchen, aber die Daten dieser Türme fehlen im Datensatz - und diese Felder sind leer. Die Analyse der Kundenzufriedenheit basiert auf unvollständigen Daten.
Da dem Telekommunikationsunternehmen ein Teil seiner wesentlichen Daten fehlt, wird die daraus resultierende Analyse falsch sein, was seine Bemühungen um eine proaktive Kundenbetreuung zur Kundenbindung vereitelt oder verzögert.
Gültigkeit - Haben die Daten das richtige Format?
Die Datenvalidität bezieht sich auf die Konsistenz der Datenwerte gemäß den festgelegten Regeln und Standards.
Eine Versicherung Anbieter analysiert die Schadenquoten und möchte wissen, in welchen Regionen der Vereinigten Staaten bestimmte Schäden häufiger auftreten. Die Analysten nutzen die Ereignishistorie mit Adressen und Postleitzahlen, um künftige Schäden vorherzusagen, die ihnen bei der Festlegung der Tarife für die nächsten fünf Jahre helfen werden - aber ... sie verwenden Daten von schlechter Qualität.
Im Feld für die Postleitzahl werden fünfstellige Standard-Postleitzahlen aus den USA erwartet. Viele der Einträge haben fünfstellige Postleitzahlen; einige haben fünfstellige Postleitzahlen + vier Ziffern; und eines der Regionalbüros hat die Postleitzahlen fälschlicherweise als Ortsvorwahlen eingegeben, nachdem Hagelschäden nach einem großen Sturm eingegangen waren.
Wenn die Analysten diesen Datensatz - so wie er ist - verwenden, um die Tarife für die nächsten fünf Jahre zu bestimmen, werden sie das Hagelrisiko für eine Region falsch einschätzen, und diese Einschätzung wird sich auf alle Tarife für alle Kunden auswirken.
Einzigartigkeit - Stellt jede Zeile eine individuelle Kennung dar?
In einigen Datensätzen müssen die Datenzeilen völlig eindeutig sein. Wenn eine Finanzdienstleistungen Institut Kontonummern vergibt, ist es wichtig, dass jede Kontonummer ein einzelnes Konto eindeutig identifiziert. Wenn mehreren, nicht miteinander verbundenen Konten dieselbe Kontonummer zugewiesen wird, ist es schwierig festzustellen, wem das Bankkonto gehört.
Bewährte Praktiken der Datenqualität
Das Datenqualitätsmanagement ist ein wichtiges Anliegen für Unternehmen aller Branchen. Sie kann erhebliche Auswirkungen auf Ihr Unternehmen haben, und es ist wichtig zu wissen, wie man sie verbessern kann. Die Anwendung von Best Practices für die Datenqualität stellt sicher, dass Ihre Daten genau, vollständig, konsistent und zeitnah sind, damit Sie die zukünftigen Ziele Ihres Unternehmens erfolgreich umsetzen können.
Es ist wichtig zu wissen, was Datenqualität ist und was sie nicht ist. Datenqualität ist nicht nur eine Sache, sondern eine Kombination aus den fünf oben genannten Aspekten und ihrer Wechselwirkung untereinander. Wenn Sie beispielsweise über genaue und konsistente Daten verfügen, Ihre Datensätze aber unvollständig sind (d. h. Sie haben nicht alle Informationen), können Ihre Daten insgesamt immer noch als minderwertig angesehen werden.
Unternehmen benötigen die richtigen Mitarbeiter, Prozesse und Technologien, um die beste Qualität für ihre Daten zu erreichen. Um ein effektives Programm zu implementieren:
- Machen Sie die Datenqualität zu einer Priorität für Ihr Unternehmen.
- Verstehen Sie, wie ungenaue, veraltete, inkonsistente, unvollständige, ungültige und redundante Daten zu falschen Analysen, fehlgeleiteten Geschäftsentscheidungen und Umsatzeinbußen führen können.
- Ermöglichen Sie es Dateneigentümern und Geschäftsinhabern, Ziele und Regeln für die Datenqualität festzulegen - die Fachleute, die die Daten am meisten nutzen, wissen, was für die Analyse am wichtigsten ist.
- Machen Sie die Regeln leicht verständlich und verwenden Sie eine einfache Sprache, um sie zu beschreiben.
- Machen Sie die Messungen der Datenqualität klar und verfügbar, damit die Datenbearbeiter die hochwertigsten Daten auswählen können.
- Definition, Festlegung und Umsetzung von Standards im gesamten Unternehmen.
Tools für das Datenqualitätsmanagement
Wenn Sie die Qualität Ihrer Daten verbessern oder ihre Qualität messen und überwachen wollen, gibt es viele Hilfsmittel, die Ihnen dabei helfen können. Mit diesen Werkzeugen können Sie Probleme mit der Datenqualität und Lücken in der Datenqualität ermitteln. Einige Beispiele sind:
Tools zur Bewertung der Datenqualität - Mit diesen Tools können Benutzer Berichte erstellen, die ihre Datensätze auf der Grundlage bestimmter Regeln oder Richtlinien (z. B. Industriestandards) bewerten. Sie können auch Feedback dazu geben, was in den einzelnen Datensätzen verbessert werden kann, damit sie den entsprechenden Standards entsprechen.
Tools für das Datenprofiling - diese Werkzeuge verwenden Künstliche Intelligenz (KI) Algorithmen in Kombination mit menschlichem Fachwissen, um große Mengen an unstrukturiertem Text zu analysieren und daraus relevante Informationen zu extrahieren. Dies hilft Unternehmen zu verstehen, wie ihre Kunden sie wahrnehmen; ob diese Wahrnehmungen mit dem übereinstimmen, was sie gerne hätten; wenn nicht, warum nicht?
Verbessern Sie die Datenqualität mit BigID
Die Datenqualität wird anhand verschiedener Dimensionen gemessen, die die Dateneigentümer für jeden einzelnen Datensatz verfolgen und überwachen können. Diese Verfolgung ist für Unternehmen unerlässlich, um:
- den Zustand ihrer Daten zu verstehen
- Daten verwalten
- Datenprobleme beheben
- die besten Daten für Geschäftsentscheidungen nutzen
BigID hilft bei der Skalierung und Automatisierung der Datenqualitätsmessung und -verwaltung und verwandelt ein arbeitsintensives, komplexes Problem in eine überschaubare, ML-basierte Lösung. Mit BigID können Unternehmen:
- Aktive Überwachung von Datenanomalien zur Verbesserung der Effizienz
- Dynamisches Profiling von sich ändernden Daten zur Ableitung relevanter Datenqualitätsbewertungen
- Hinzufügen benutzerdefinierter Metriken zu Datasets
- Anwendung von Datenqualitätsbewertungen auf alle Datenquellen
- Erhalten Sie 360°-Einblicke für alle Daten (strukturiert, unstrukturiert, halbstrukturiert, vor Ort, in der Cloud und hybrid) für die umfassendsten Abdeckung auf dem Markt verfügbar - alles in einem einheitlichen Bestand
- Maßnahmen ergreifen, um die Genauigkeit, Aktualität, Konsistenz, Vollständigkeit, Gültigkeit und Eindeutigkeit ihrer Daten zu verbessern
- einen proaktiven Ansatz verfolgen, der einen Wettbewerbsvorteil schafft und zu fundierten Geschäftsentscheidungen führt
- Ihre Daten vertrauensvoll nutzen
Ist die Verwaltung der Datenqualität in Ihrem Unternehmen eine Herausforderung? Sehen Sie, wie BigID Automatisierung und Einblicke bietet die zu besseren Geschäftsergebnissen führen.