Qualité des données La gestion des données est devenue un élément essentiel de toute entreprise. C'est un atout précieux que les organisations doivent exploiter et protéger. Les organisations de tous les secteurs sont confrontées à des défis de plus en plus complexes en matière de gestion des données, notamment en matière d'amélioration de la qualité des données et de gestion des risques.
Qu'est-ce que la qualité des données ?
La qualité des données mesure leur exhaustivité, leur cohérence et leur exactitude. Elle permet de mesurer dans quelle mesure les données répondent aux exigences de leur utilisation prévue.
Les organisations prennent des décisions fondées sur des données, et la qualité de ces décisions dépend des données sur lesquelles elles s'appuient. Si une entreprise prend une décision sur la base de données de mauvaise qualité, le résultat risque de ne pas être à la hauteur des attentes.
La qualité des données mesure la fiabilité d'un ensemble de données pour prendre une décision fondée sur les données — ou, en un mot, la fiabilité des données.
Pourquoi la qualité des données est-elle importante ?
Selon le Gartner, une mauvaise qualité des données coûte aux organisations $12,9 millions par an et s'accompagne d'une multitude de conséquences négatives, comme des relations clients endommagées, des décisions commerciales mal informées et des écosystèmes de données confus.
Heureusement, la qualité des données a le vent en poupe, et de plus en plus d'entreprises se concentrent sur la manière dont elle peut améliorer leurs décisions commerciales. Cette année, Gartner prévoit que le suivi de la qualité des données basé sur des indicateurs augmentera de 60 %.
Les organisations peuvent capitaliser sur l’avantage concurrentiel que leur procurera l’amélioration de la qualité des données – et c’est le moment.
Dimensions de la qualité des données
Les dimensions de la qualité des données sont les caractéristiques des données qui déterminent leur qualité. Ces dimensions peuvent être regroupées en six catégories :
- Précision
- Opportunité
- Cohérence
- Exhaustivité
- Validité
- Unicité
Voici quelques cas d’utilisation dans divers secteurs qui démontrent comment chacun de ces attributs peut affecter les décisions d’une organisation en matière de données. Les définitions de ces six aspects peuvent varier légèrement selon la personne à qui vous posez la question ou le contexte dans lequel ils sont appliqués, mais voici comment nous les définissons :
Exactitude — Les données sont-elles correctes ?
Exact signifie que les informations recueillies sont correctes et n'ont pas été entachées d'une erreur humaine ou d'un dysfonctionnement de la machine lors de la collecte, du traitement, du stockage, de l'analyse ou de la transmission.
Une compagnie aérienne souhaite promouvoir ses soldes d'été. Le service marketing va envoyer des supports promotionnels avec des codes de réduction aux clients ayant voyagé au cours des trois dernières années.
La communication avec les clients dépend de la présence coordonnées précises — dans ce cas, les adresses e-mail ou postales. Si les données sont inexactes, la promotion ne pourra pas être diffusée auprès des clients visés et la compagnie aérienne ne pourra pas atteindre ses objectifs.
Actualité — Dans quelle mesure les données sont-elles récentes ?
En temps opportun signifie avoir suffisamment de temps avant l'utilisation pour que les modifications puissent être apportées si nécessaire.
Un service d'imagerie hospitalier planifie des IRM pour les patients. L'hôpital ne dispose que d'un seul appareil d'IRM, et il est toujours très sollicité.
Lorsque les médecins prescrivent des IRM pour leurs patients, les demandes sont transmises au service de planification. Ce service doit s'appuyer sur des données aussi récentes que possible pour être informé des annulations ou des conflits de rendez-vous. Sans cela, il ne pourra pas optimiser l'utilisation de cette ressource rare. soins aux patients.
Cohérence — Les données sont-elles les mêmes dans les ensembles de données connexes ?
Cohérent signifie que les types d'enregistrements similaires contiennent toujours des éléments similaires d'un enregistrement à un autre dans un type d'enregistrement donné.
Un distributeur de produits emballés optimise ses itinéraires de livraison. Les données indiquent qu'un entrepôt se trouve à « Portland ».
Les codes d'entrepôt doivent être cohérents entre les ensembles de données, de sorte que si un ensemble de données montre que l'entrepôt se trouve à Portland, dans l'Oregon, un autre ensemble de données associé ne suggère pas que le même entrepôt se trouve à Portland, dans le Maine.
Si les données de localisation ne sont pas cohérentes, les itinéraires de livraison seront inexacts et l'un des entrepôts manquera son approvisionnement de livraison.
Exhaustivité — L’ensemble de données contient-il des valeurs nulles ?
Complet signifie avoir tous les composants nécessaires pour une tâche ou un objectif donné.
Un opérateur de télécommunications analyse les appels interrompus afin de prédire la satisfaction client et les taux de désabonnement attendus. Un nombre important d'antennes-relais du sud-est ont perdu leur connexion lors d'un récent ouragan.
Bien que la catastrophe naturelle ait entraîné plusieurs interruptions d'appels, les données de ces tours sont absentes de l'ensemble de données et ces champs sont vides. L'analyse de la satisfaction client repose sur des données incomplètes.
Étant donné que l’entreprise de télécommunications manque d’une partie de ses données essentielles, l’analyse qui en résultera sera incorrecte, ce qui contrecarrera ou retardera ses efforts en matière de service client proactif pour la fidélisation de la clientèle.
Validité — Les données sont-elles au bon format ?
La validité des données fait référence à la cohérence des valeurs des données selon les règles et normes établies.
Un assurance Le fournisseur analyse les taux de sinistres et souhaite identifier les régions des États-Unis où les sinistres sont les plus fréquents. Les analystes utilisent l'historique des événements, avec adresses et codes postaux, pour prédire les futurs sinistres et ainsi fixer les tarifs pour les cinq prochaines années. Cependant, leurs données sont de mauvaise qualité.
Le champ « Code postal » devrait contenir les codes postaux américains standard à cinq chiffres. De nombreuses entrées comportent des codes postaux à cinq chiffres ; d'autres contiennent des codes postaux à cinq chiffres + quatre chiffres ; et l'un des bureaux régionaux a incorrectement saisi des codes postaux comme indicatifs régionaux après avoir reçu des déclarations de grêle suite à une forte tempête.
Si les analystes utilisent cet ensemble de données — tel quel — pour déterminer les tarifs des cinq prochaines années, ils évalueront de manière incorrecte le risque de grêle pour une région, et cette évaluation affectera tous leurs tarifs pour tous les clients.
Unicité — Chaque ligne représente-t-elle un identifiant individuel ?
Dans certains ensembles de données, les éléments de ligne de données doivent être complètement uniques. Lorsqu'un services financiers Lorsqu'une institution attribue des numéros de compte, il est essentiel que chaque numéro identifie de manière unique un compte unique. Si plusieurs comptes sans lien entre eux se voient attribuer le même numéro, il sera difficile d'en déterminer le titulaire.
Meilleures pratiques en matière de qualité des données
La gestion de la qualité des données est une préoccupation majeure pour les organisations de tous les secteurs. Elle peut avoir un impact significatif sur votre activité et il est important de savoir comment l'améliorer. L'application des meilleures pratiques en matière de qualité des données garantira l'exactitude, l'exhaustivité, la cohérence et la disponibilité de vos données, contribuant ainsi à la réussite de vos objectifs futurs.
Il est important de comprendre ce qu'est la qualité des données et ce qu'elle n'est pas. La qualité des données n'est pas une chose unique ; c'est une combinaison des cinq aspects mentionnés ci-dessus, associés à la manière dont ils interagissent. Par exemple, si vos données sont exactes et cohérentes, mais que vos enregistrements sont incomplets (ce qui signifie que vous ne disposez pas de toutes les informations), vos données globales peuvent néanmoins être considérées comme de mauvaise qualité.
Les organisations ont besoin des personnes, des processus et des technologies adéquats pour garantir la meilleure qualité de leurs données. Pour mettre en œuvre un programme efficace :
- Faites de la qualité des données une priorité pour l’organisation.
- Comprenez comment des données inexactes, obsolètes, incohérentes, incomplètes, invalides et redondantes peuvent entraîner des analyses incorrectes, des décisions commerciales erronées et des pertes de revenus.
- Permettez aux propriétaires de données et aux propriétaires d’entreprise de définir des objectifs et des règles de qualité des données : les professionnels qui utilisent le plus les données sauront ce qui est le plus important pour l’analyse.
- Faites en sorte que les règles soient faciles à comprendre et utilisez un langage simple pour les décrire.
- Rendre les mesures de qualité des données claires et accessibles aux travailleurs des données afin qu'ils puissent sélectionner les données de la plus haute qualité.
- Définir, établir et mettre en œuvre des normes dans toute l’entreprise.
Outils de gestion de la qualité des données
Si vous souhaitez améliorer la qualité de vos données, ou si vous souhaitez la mesurer et la surveiller, de nombreux outils peuvent vous aider. Ces outils peuvent vous aider à identifier les problèmes et les lacunes en matière de qualité des données. En voici quelques exemples :
Outils d'évaluation de la qualité des données Ces outils permettent aux utilisateurs de créer des rapports évaluant leurs ensembles de données selon des règles ou des directives spécifiques (par exemple, les normes sectorielles). Ils peuvent également fournir des commentaires sur les améliorations possibles pour chaque ensemble de données afin qu'il réponde aux normes appropriées.
Outils de profilage des données – ces outils utilisent l'intelligence artificielle (IA) Des algorithmes combinés à l'expertise humaine permettent d'analyser de grands volumes de textes non structurés et d'en extraire des informations pertinentes. Cela aide les organisations à comprendre comment leurs clients les perçoivent ; si ces perceptions correspondent à leurs attentes ; si ce n'est pas le cas, pourquoi ?
Améliorez la qualité des données avec BigID
La qualité des données est mesurée selon différentes dimensions que les propriétaires de données peuvent suivre et surveiller par ensemble de données spécifique. Ce suivi est essentiel pour les organisations afin de :
- comprendre la santé de leurs données
- gérer les données
- résoudre les problèmes de données
- utiliser les meilleures données pour les décisions commerciales
BigID permet de dimensionner et d'automatiser la mesure et la gestion de la qualité des données, transformant ainsi un problème complexe et exigeant en main-d'œuvre en une solution gérable basée sur le Machine Learning. Avec BigID, les organisations peuvent :
- Surveiller activement les anomalies de données pour améliorer l'efficacité
- Établir un profil dynamique des données changeantes pour obtenir des scores de qualité de données pertinents
- Ajouter des métriques personnalisées aux ensembles de données
- Appliquer les scores de qualité des données à toutes les sources de données
- Obtenez des informations à 360° sur toutes les données (structurées, non structurées, semi-structurées, sur site, dans le cloud et hybrides) pour le plus grand nombre couverture disponibles sur le marché — le tout dans un inventaire unifié
- Prendre des mesures pour améliorer l'exactitude, l'actualité, la cohérence, l'exhaustivité, la validité et l'unicité de leurs données
- Adoptez une approche proactive qui crée un avantage concurrentiel et conduit à des décisions commerciales éclairées
- Utilisez leurs données en toute confiance
La gestion de la qualité des données est-elle un défi au sein de votre organisation ? Découvrez comment BigID ajoute automatisation et informations pour conduire à de meilleurs résultats commerciaux.