Calidad de los datos Se ha convertido en una parte fundamental de cualquier negocio. Es un activo valioso que las organizaciones necesitan aprovechar y proteger. Organizaciones de todos los sectores se enfrentan a retos de gestión de datos cada vez más complejos, incluyendo cómo mejorar la calidad de los datos y gestionar el riesgo.
¿Qué es la calidad de los datos?
La calidad de los datos se refiere al grado en que son completos, consistentes y precisos. Es una medida de su cumplimiento de los requisitos para su uso previsto.
Las organizaciones toman decisiones basadas en datos, y la calidad de esas decisiones depende de los datos en que se basan. Si una empresa toma una decisión basándose en datos de baja calidad, es probable que el resultado no cumpla con las expectativas.
La calidad de los datos mide qué tan confiable es un conjunto de datos para tomar una decisión basada en datos, o, en una palabra, la confiabilidad de los datos.
¿Por qué es importante la calidad de los datos?
Según GartnerLa mala calidad de los datos cuesta a las organizaciones entre 1TP y 12,9 millones de TWD al año y conlleva un montón de consecuencias negativas relacionadas, como relaciones dañadas con los clientes, decisiones comerciales mal informadas y ecosistemas de datos confusos.
Afortunadamente, la calidad de los datos está en auge, y cada vez más empresas se centran en cómo puede impulsar mejores decisiones de negocio. Este año, Gartner predice que el seguimiento de la calidad de los datos basado en métricas aumentará un impresionante 60 %.
Las organizaciones pueden aprovechar la ventaja competitiva que les brindará la mejora de la calidad de los datos, y ahora es el momento.
Dimensiones de la calidad de los datos
Las dimensiones de calidad de los datos son las características que determinan su calidad. Estas dimensiones se pueden agrupar en seis categorías:
- Exactitud
- Oportunidad
- Consistencia
- Lo completo
- Validez
- Unicidad
A continuación se presentan algunos casos de uso en diversas industrias que demuestran cómo cada uno de estos atributos podría afectar las decisiones de datos de una organización. Las definiciones de estos seis aspectos pueden variar ligeramente según a quién le preguntes o en qué contexto se apliquen, pero aquí te explicamos cómo los definimos:
Precisión: ¿Son correctos los datos?
Preciso significa que la información recopilada es correcta y no ha sido contaminada por errores humanos o mal funcionamiento de la máquina durante la recopilación, el procesamiento, el almacenamiento, el análisis o la transmisión.
Una aerolínea quiere promocionar sus rebajas de verano. El departamento de marketing enviará materiales promocionales con códigos de descuento a los clientes que hayan volado en los últimos tres años.
La comunicación con el cliente depende de tener información de contacto precisa — En este caso, direcciones de correo electrónico o postal. Si los datos no son precisos, la promoción no podrá entregarse a los clientes previstos y la aerolínea no alcanzará sus objetivos.
Actualidad: ¿Qué tan recientes son los datos?
Oportuno significa tener suficiente tiempo antes del uso para que se puedan realizar los cambios necesarios.
El departamento de imágenes de un hospital está programando resonancias magnéticas para pacientes. El hospital solo cuenta con un equipo de resonancia magnética, que siempre tiene alta demanda.
Cuando los médicos solicitan resonancias magnéticas para sus pacientes, las solicitudes se envían al departamento de programación. Este departamento debe trabajar con datos lo más actualizados posible para estar al tanto de las cancelaciones de planes o los conflictos de citas. De lo contrario, no podrán optimizar el uso de un recurso escaso para obtener el mejor resultado. atención al paciente.
Coherencia: ¿Son los datos los mismos en todos los conjuntos de datos relacionados?
Coherente significa que los tipos de registros similares siempre contienen elementos similares de un registro a otro dentro de cualquier tipo de registro determinado.
Un distribuidor de productos envasados está optimizando sus rutas de entrega. Los datos muestran que un almacén está en «Portland».
Los códigos de almacén deben ser consistentes en todos los conjuntos de datos, de modo que si un conjunto de datos muestra que el almacén está en Portland, Oregón, otro conjunto de datos relacionado no sugiera que el mismo almacén está en Portland, Maine.
Si los datos de ubicación no son consistentes, las rutas de entrega serán inexactas y uno de los almacenes perderá su suministro de entrega.
Integridad: ¿El conjunto de datos tiene valores nulos?
Completo significa tener todos los componentes necesarios para una tarea o propósito determinado.
Una compañía de telecomunicaciones analiza las llamadas interrumpidas para predecir la satisfacción del cliente y las tasas de abandono esperadas. Un número significativo de torres de telefonía celular en el sureste se quedaron sin conexión durante un huracán reciente.
Si bien el desastre natural provocó varias llamadas interrumpidas, los datos de esas torres no se incluyen en el conjunto de datos, y esos campos están vacíos. El análisis de satisfacción del cliente se basa en datos incompletos.
Dado que a la empresa de telecomunicaciones le falta parte de sus datos esenciales, el análisis resultante será incorrecto, lo que frustrará o retrasará sus esfuerzos de atención proactiva para la retención de clientes.
Validez: ¿Los datos están en el formato correcto?
La validez de los datos se refiere a la consistencia de los valores de los datos según reglas y estándares establecidos.
Un seguro El proveedor está analizando las tasas de reclamaciones y quiere saber qué regiones de Estados Unidos tienen mayor incidencia de ciertas reclamaciones. Los analistas utilizan el historial de eventos con direcciones y códigos postales para predecir futuras reclamaciones que les ayudarán a establecer las tasas para los próximos cinco años, pero… utilizan datos de baja calidad.
Se espera que el campo de código postal contenga códigos postales estándar de cinco dígitos de EE. UU. Muchas entradas tienen códigos postales de cinco dígitos; algunas tienen códigos postales de cinco dígitos + cuatro dígitos; y una de las oficinas regionales ingresó incorrectamente códigos postales como códigos de área después de recibir reclamos por granizo de una gran tormenta.
Si los analistas utilizan este conjunto de datos —tal como está— para determinar las tarifas de los próximos cinco años, evaluarán incorrectamente el riesgo de granizo para una región y esa evaluación afectará todas sus tarifas para todos los clientes.
Unicidad: ¿Cada línea representa un identificador individual?
En algunos conjuntos de datos, las líneas de datos deben ser completamente únicas. Cuando un servicios financieros Cuando una institución asigna números de cuenta, es fundamental que cada número identifique de forma única una sola cuenta. Si se asigna el mismo número a varias cuentas no relacionadas, será difícil determinar quién es el titular de la cuenta bancaria.
Mejores prácticas de calidad de datos
La gestión de la calidad de los datos es una preocupación fundamental para las organizaciones de todos los sectores. Puede tener un impacto significativo en su negocio y es fundamental saber cómo mejorarla. Aplicar las mejores prácticas de calidad de datos garantizará que sus datos sean precisos, completos, consistentes y oportunos para el éxito de los objetivos futuros de su organización.
Es importante saber qué es y qué no es la calidad de los datos. La calidad de los datos no es un solo aspecto, sino una combinación de los cinco aspectos mencionados anteriormente y su interacción. Por ejemplo, si tiene datos precisos y consistentes, pero sus registros están incompletos (es decir, no dispone de toda la información), sus datos en general pueden considerarse de mala calidad.
Las organizaciones necesitan el personal, los procesos y la tecnología adecuados para garantizar la mejor calidad de sus datos. Para implementar un programa eficaz:
- Haga de la calidad de los datos una prioridad para la organización.
- Comprenda cómo los datos inexactos, obsoletos, inconsistentes, incompletos, inválidos y redundantes conducirán a análisis incorrectos, decisiones comerciales equivocadas y pérdida de ingresos.
- Permita que los propietarios de datos y los propietarios de empresas establezcan objetivos y reglas de calidad de datos: los profesionales que más usan los datos sabrán qué es lo más importante para el análisis.
- Haga que las reglas sean fáciles de entender y utilice un lenguaje sencillo para describirlas.
- Haga que las mediciones de calidad de los datos sean claras y estén disponibles para que los trabajadores de datos seleccionen los datos de mayor calidad.
- Definir, establecer e implementar estándares en toda la empresa.
Herramientas de gestión de la calidad de los datos
Si desea mejorar la calidad de sus datos, o medirla y supervisarla, existen numerosas herramientas que pueden ayudarle. Estas herramientas pueden ayudarle a identificar problemas y deficiencias en la calidad de los datos. Algunos ejemplos incluyen:
Herramientas de evaluación de la calidad de los datos Estas herramientas permiten a los usuarios crear informes que evalúan sus conjuntos de datos según reglas o directrices específicas (por ejemplo, estándares del sector). También pueden proporcionar retroalimentación sobre las mejoras posibles en cada conjunto de datos para que cumplan con los estándares adecuados.
Herramientas de creación de perfiles de datos – estas herramientas utilizan inteligencia artificial (IA) Algoritmos combinados con experiencia humana para analizar grandes volúmenes de texto no estructurado y extraer información relevante. Esto ayuda a las organizaciones a comprender cómo las perciben sus clientes; si esas percepciones coinciden con lo que desean; y si no, ¿por qué no?
Mejore la calidad de los datos con BigID
La calidad de los datos se mide según diversas dimensiones que los propietarios de datos pueden rastrear y monitorear mediante un conjunto de datos específico. Este seguimiento es esencial para que las organizaciones:
- comprender la salud de sus datos
- gestionar datos
- resolver problemas de datos
- Utilice los mejores datos para tomar decisiones comerciales
BigID ayuda a escalar y automatizar la medición y gestión de la calidad de los datos, convirtiendo un problema complejo y laborioso en una solución gestionable basada en aprendizaje automático. Con BigID, las organizaciones pueden:
- Monitorear activamente las anomalías de datos para mejorar la eficiencia
- Perfilar dinámicamente datos cambiantes para obtener puntuaciones de calidad de datos relevantes
- Agregar métricas personalizadas a los conjuntos de datos
- Aplicar puntuaciones de calidad de datos en todas las fuentes de datos
- Obtenga información de 360° para todos los datos (estructurados, no estructurados, semiestructurados, locales, en la nube e híbridos) para la más amplia cobertura Disponible en el mercado, todo en un inventario unificado
- Tomar medidas para mejorar la precisión, puntualidad, coherencia, integridad, validez y singularidad de sus datos.
- Adoptar un enfoque proactivo que genere una ventaja competitiva y conduzca a decisiones comerciales bien informadas.
- Utilice sus datos con confianza
¿Gestionar la calidad de los datos es un desafío en su organización? Vea cómo BigID agrega automatización y conocimiento para conducir a mejores resultados comerciales.