Data Quality, por qué y para qué
Problemas producidos por una baja calidad de datos
Una baja calidad de datos hace que las empresas incurran en costos innecesarios de imprenta, envíos postales y recursos humanos. Erosiona la credibilidad de una organización desde el punto de vista de clientes y proveedores. Impide o dificulta decisiones correctas basadas en información precisa. El problema de una baja calidad de datos empeora con el tiempo: expertos estiman que un 2% de los registros de una base de clientes se vuelven obsoletos en un mes, debido a que estos se mueren, se divorcian, se casan, se mudan, etc. Los errores de data entry, las migraciones de sistemas, los cambios en los sistemas fuente, etc. generan muchísimos nuevos errores.
Las fuentes de una baja calidad son diversas, como lo muestra el siguiente gráfico:
Según un estudio del Data Warehousing Institute, los dos principales desafíos que enfrentan las compañías que implementan soluciones de CRM son el manejo de la calidad de datos y la consistencia de los mismos (46% de las empresas evaluadas), y reconciliar los registros de los clientes (40% de las empresas). En el mismo estudio se estima que un 40% de las empresas sufrieron pérdidas, problemas o costos debido a una baja calidad de datos y que un 43% de las empresas probablemente experimentaron problemas similares, pero no detectaron la cuestión.
Los costos de no enfrentar el problema son onerosos. El Data Warehousing Institute estimó en 2002 que los problemas de calidad de datos costaron a las empresas estadounidenses 611 mil millones de dólares anuales. Larry English estima que de un 10 a un 25% de los ingresos operativos de una compañía se emplean en resolver los problemas ocasionados por una baja calidad de datos.
Algunos ejemplos concretos
- Una compañía de seguros recibe 2 millones de reclamos mensuales, con 377 elementos de datos por reclamo. A una tasa de error de .001, los datos de los reclamos contienen 754.000 errores por mes y más de 9.04 millones por año. Una estimación muy básica de los costos incurridos debido a los errores es de 10 millones de dólares anuales.
- Una empresa de telecomunicaciones perdió 8 millones de dólares en un mes solo en facturaciones erróneas a sus clientes debido a errores de data entry.
- Un banco estimó el ROI de su proyecto de calidad de datos en 100.000 dólares anuales.
- Una empresa internacional de educación en línea ahorra anualmente 500.000 dólares en correo, a partir de la implementación de un programa de calidad de datos. La empresa envía anualmente 20 millones de piezas de correo a clientes y prospectos.
¿Qué es calidad de datos?
Calidad de datos es adecuar las características de los datos de un negocio a sus necesidades. Las características que colectivamente conforman la calidad de los datos son:
- Precisión
- Integridad
- Consistencia
- Completitud
- Validez
- Oportunidad
- Accesibilidad
Los conjuntos de datos totalmente libres de errores son sospechosos antes de un trabajo de calidad de datos y una utopía después de este.
Las claves para resolver el problema de una baja calidad de datos son:
- Considerar los datos como un recurso estratégico.
- Desarrollar un programa de calidad de datos con un fuerte compromiso de los estamentos gerenciales superiores.
- Utilizar profesionales experimentados en calidad de datos para monitorear y llevar a cabo el programa.
- Utilizar herramientas computacionales apropiadas de calidad de datos.
- Monitorear y mantener la calidad de datos una vez alcanzado un cierto nivel de calidad.
Metodología de calidad de datos
Una metodología más o menos estándar de calidad de datos consiste en:
- Lanzar un programa de calidad de datos que involucre a toda la empresa, especialmente la capa gerencial superior
- Desarrollar un plan (o planes) del proyecto
- Construir un equipo de calidad de datos
- Revisar los procesos de negocios y la arquitectura de datos
- Evaluar la calidad de datos
- Limpieza de datos
- Monitoreo de datos
Etapas específicas de un proceso de calidad de Datos
Las etapas básicas de un proceso de calidad de datos son:
- Auditoría o profiling: evaluación de la calidad de datos en las áreas clave
- Construcción de reglas, esquemas, gramáticas y métricas de calidad de datos
- Aplicación de las herramientas construidas a la limpieza de datos
- Monitoreo y detección en tiempo real de nuevos errores
Herramientas de calidad de datos
Si bien un buen programa de calidad de datos es el resultado de una apropiada administración de personas y procesos, las herramientas tecnológicas tienen un papel importante. Muchas empresas realizan tareas de limpieza de datos con herramientas caseras, programas en SQL o herramientas limitadas incluidas en productos de ETL. El mercado de herramientas de calidad de datos es aun pequeño, pero se encuentra en expansión. Aproximadamente un tercio de las empresas tienen actualmente herramientas específicas de calidad de datos.
La funcionalidad esperable de las herramientas de calidad de datos consiste de:
- Profiling de datos
- Parsing de datos
- Estandarización o normalización
- Verificación
- Matching
- Consolidación
Dentro del conjunto de herramientas de calidad de datos, sobresalen las de DataFlux, una empresa de SAS. Sus herramientas son consideradas líderes en su tipo, como lo ilustra el siguiente “cuadrado mágico” de Gartner.
Algunos “tips”
- Una herramienta de calidad de datos puede, en forma “out of the box”, resolver un 80% de los problemas de calidad de datos de una empresa, el resto debe resolverse complementando las herramientas con nuevas reglas, esquemas y gramáticas que surgen del análisis de los datos existentes.
- Una herramienta debe incluir una base de conocimiento del lenguaje regional (español argentino, por ejemplo) y un “locale” apropiado (Argentina). La aplicación de bases o locales más genéricos (p. ej. español) disminuyen notablemente la efectividad de las herramientas de calidad de datos.
- Herramientas de ETL, text minining, data mininig, estadísticas, etc. tienen funcionalidades sumamente limitadas de calidad de datos. No son apropiadas como herramientas centrales en un programa de calidad de datos.
- Los criterios fundamentales para evaluar una herramienta de calidad de datos son: performance en relación con el precio, funcionalidades, facilidad de uso e integración con las herramientas existentes.
- Algunas herramientas se concentraron históricamente en la calidad de datos de Nombres y Direcciones. Actualmente esto es insuficiente.

Figura 2 – Modelización y tasa señal/ruido.
