volver a escritos
26 de abril de 2026·5 min·DATA

Las métricas de calidad de datos que usás son del 2020. Acá te explico por qué tu pipeline está roto

Las métricas clásicas de calidad de datos ya no alcanzan para sostener pipelines de IA modernos. Conocé qué medir hoy y cómo evitar que tus modelos fallen por datos que parecen limpios pero no lo son.

Si tu métrica principal de calidad de datos es el porcentaje de nulos, tenés un problema.

No porque sea una mala métrica. Sino porque es insuficiente, y en 2026 eso ya no tiene excusa.

La mayoría de los equipos de datos hereda pipelines construidos cuando el objetivo era mover datos de A a B sin que exploten. Eso funcionaba. Pero hoy esos mismos pipelines alimentan modelos de lenguaje, sistemas de recomendación y agentes autónomos. El estándar cambió. Las métricas, no.

El problema no es la suciedad. Es la ilusión de limpieza.

Un dataset con 0% de nulos y 0% de duplicados puede seguir siendo basura. ¿Por qué? Porque las métricas clásicas no capturan:

  • Drift de distribución: tus datos de hoy no se parecen a los de entrenamiento.
  • Inconsistencias entre fuentes: el CRM dice una cosa, el data warehouse dice otra.
  • Valores plausibles pero incorrectos: un ingreso de $150.000 no levanta ninguna alarma, pero puede estar en la moneda equivocada.
  • Relaciones rotas: una foreign key que existe pero apunta a un registro obsoleto.

Ninguna de estas fallas aparece en un reporte de completitud o unicidad.

Un ejemplo concreto.

Un equipo de e-commerce midió calidad con las métricas de siempre: completitud, unicidad, formato. Todo verde. El modelo de recomendación entrenado sobre esos datos empezó a degradarse silenciosamente tres meses después del deploy.

El problema: un proveedor cambió la codificación de categorías de productos sin avisar. Los datos seguían siendo completos y únicos. Pero la semántica era otra. El modelo nunca lo supo.

Qué métricas incorporar hoy.

No se trata de tirar lo que tenés. Se trata de agregar capas que antes no eran necesarias:

  1. Data freshness con SLA por entidad: no es lo mismo que un usuario esté desactualizado hace 2 horas que una transacción financiera.
  2. Drift monitoring en producción: herramientas como Evidently o Nannyml permiten detectar cambios de distribución antes de que impacten en los resultados.
  3. Validaciones semánticas: Great Expectations o Soda pueden definir contratos de datos que van más allá del tipo y el formato.
  4. Linaje y trazabilidad: saber de dónde viene cada campo no es un lujo, es un requisito para debuggear cuando algo falla.
  5. Cobertura de tests por criticidad: no todos los campos merecen el mismo nivel de validación. Priorizá según el impacto en decisiones de negocio.

El punto de fondo.

La calidad de datos dejó de ser un problema de ingeniería y pasó a ser un problema de confiabilidad de sistemas. Cuando un modelo toma decisiones en producción, la calidad del dato que lo alimenta tiene consecuencias reales: créditos mal otorgados, diagnósticos sesgados, recomendaciones que alejan en lugar de fidelizar.

Usás las métricas que usás porque fueron suficientes en su momento. Pero el momento cambió.

Por dónde empezar.

Revisá el pipeline más crítico que tenés hoy. Identificá qué validaciones existen. Preguntate si esas validaciones detectarían el problema del ejemplo de e-commerce que mencioné antes.

Si la respuesta es no, ya sabés qué hacer primero.