Nadie postea sobre esto. No hay captura linda, no hay momento de 'lo logramos’. Es de las cosas más aburridas que toqué esta semana —y de las que más mueven la aguja.
Tenemos una bodega de datos con el corazón de varios negocios adentro. Cada empresa trae, en texto, a qué se dedica. Pero el código que clasifica esa actividad —el número del que dependen casi todos los filtros que construimos encima— venía lleno solo en el 4% de los registros. El otro 96%: vacío.
O sea: teníamos la frase, pero no la etiqueta. Y sin la etiqueta, casi todo el universo quedaba invisible para las herramientas que viven de él.
La solución no fue mágica. Fue paciente: dejar que el sistema aprendiera, de los pocos registros que sí traían número, qué número le corresponde a cada descripción —y rellenar el resto, con el cuidado de no pisar jamás un dato que ya venía bueno.
Pasamos del 4% a casi el 99,7%. Millones de filas que estaban mudas, hoy hablan.
Si trabajas con datos sabes el chiste cruel: lo glamoroso es el modelo, la gráfica, el demo. Pero buena parte del valor está enterrada en esta parte fea —rellenar lo vacío sin romper lo lleno— que nadie aplaude.
No construí nada que se vea. Mañana sigo. Pero el piso sobre el que construyo, por fin, dejó de tener huecos.