Les métadonnées constituent depuis longtemps un élément fondamental de gouvernance des données, Mais à mesure que les données évoluent, les défis liés à leur gestion évoluent également – notamment en matière de confidentialité, de sécurité et de gouvernance. Ces dernières années, catalogues de données sont devenus des outils fondamentaux de la gouvernance des données pour la capture, la gestion et la recherche de métadonnées. Mais est-ce suffisant ?
Les métadonnées, qui font partie intégrante du monde des données, désignent simplement l'ensemble des informations disponibles et stockées dans les bases de données ou autres sources de données similaires. Ce sont les données sur les données elles-mêmes, essentielles pour les professionnels des données. Elles permettent de visualiser où se trouvent les données., accélérer la capacité des professionnels des données à localiser les meilleures données pour l'IA et la BI, gérer la commercialisation des données et répondre aux demandes réglementaires en matière de données, et bien plus encore.
Les catalogues de données traditionnels présentent toutefois de sérieuses limites :
- Couverture limitée des sources de données : Bien que les bases de données structurées et les entrepôts soient au centre de l’attention, il y a un manque de concentration sur les angles morts – notamment les fichiers, les documents, les images, les messages, les plateformes de messagerie, les SaaS, les pipelines de données, les environnements de développement, les bases de données NoSQL, et bien plus encore.
- Manque d'échelle : Typique catalogues de métadonnées Ils ne sont pas en mesure de couvrir l'intégralité du parc de données des entreprises, ni de couvrir de vastes ensembles de données. Leur envergure est insuffisante pour couvrir l'intégralité du parc de données d'une entreprise, ce qui oblige les organisations à se contenter d'une carte de Winnipeg, par exemple, alors qu'elles ont besoin d'une carte du monde.
- Capacités cloisonnées : Si vous êtes limité dans les données que vous consultez, cela signifie qu'aucune profilage des données globales, aucun inventaire de données cohérent et une sensibilisation très limitée à la sécurité et à la confidentialité.
Le résultat ? Ces types de catalogues fournissent à eux seuls une image incomplète de l'univers de données d'une organisation, ce qui pose problème non seulement pour l'identification et la gestion des données à forte valeur ajoutée, mais aussi pour l'identification et la gestion des données à haut risque.
Data Fabric et élargissement de la visibilité des données
Une façon dont les organisations ont récemment commencé à relever ces défis est d’élargir leur champ de vision via des stratégies de virtualisation, comme tissu de données. Alors que les catalogues traditionnels fonctionnent mieux sur des ensembles de données très concentrés dans des sources de données spécifiques, une structure peut évoluer au-delà de cela. tissu de données fournit un moyen de virtualiser l'accès aux ensembles de données distribués par rapport aux ensembles de données concentrés.
Cependant, toutes les stratégies d'abstraction ou de virtualisation ne se valent pas. La plupart nécessitent des proxys, ce qui augmente la latence et crée un point de défaillance unique. Ces approches ont tendance à limiter les vues (aux ensembles de données compatibles SQL), laissant une zone d'ombre sur le reste du paysage de données (du SaaS au noSQL, en passant par les fichiers et la messagerie).
Des produits comme BigID ont émergé pour répondre à cela : devenir la base de la course découverte de données et des fonctions de gouvernance sur toutes les données – sur l’ensemble de la structure.
Obtenir une vue globale consultable de vos métadonnées, données sensibles et données personnelles
Face aux limites des catalogues actuels en termes de couverture et de contexte, certaines organisations ont commencé à explorer les registres de données pour compléter leur structure de données. Grâce à une couche de registre de données, les organisations peuvent :
- Élargir le champ de vision des données au-delà d'un pool limité de lacs et d'entrepôts de données
- Fournir une échelle permettant d'examiner l'ensemble d'un parc de données d'entreprise
- Permettre la découverte des métadonnées, des données de confidentialité et des données de sécurité (d'une importance cruciale compte tenu de la complexité croissante des environnements)
- Appliquer des capacités de profilage globales – que ce soit pour améliorer la qualité des données, minimiser les données en double ou même simplement rationaliser les coûts sur l'ensemble du volume des données de l'entreprise.
- Fournir les métadonnées commerciales et opérationnelles nécessaires pour simplifier les actions de gouvernance des données, ainsi que les activités de confidentialité et de sécurité
Registre de données + Fabric pour la recherche et l'exploitation de toutes les données
Les données sont vitales pour toute entreprise numérique moderne. Les approches traditionnelles gestion des données Elles donnent une vision incomplète des données, les privant d'une vision globale et les rendant vulnérables aux risques. Les organisations doivent adopter une approche plus moderne pour gérer l'ensemble de leur parc de données. Il est plus que jamais nécessaire d'utiliser conjointement la virtualisation et la Data Fabric pour exploiter toutes les données possibles.
Et c'est là qu'interviennent les registres de données : ils aident les organisations découvrir et gérer les données en contexte:non seulement à travers les métadonnées, mais aussi d'autres artefacts de données pour la compréhension risque et réglementation -comme données personnelles et données sensiblesLes praticiens des données peuvent alors obtenir un contexte complet pour le contenu qu’ils recherchent – et rationaliser l’action, que ce soit en matière de gouvernance des données, de sécurité ou de confidentialité.
