El último análisis que hicimos para un cliente SaaS B2B reveló algo incómodo: su modelo de puntuación de leads, construido en HubSpot tres años antes, tenía una correlación de Pearson de 0,11 con los ingresos cerrados. Los leads marcados como “A” cerraban al 4,2%, los “C” al 3,8%. El equipo de marketing llevaba meses optimizando un sistema que, en la práctica, funcionaba como un generador aleatorio. Es un patrón que vemos repetidamente cuando auditamos modelos de scoring en empresas medianas, y casi siempre se debe a las mismas tres causas estructurales.

El problema empieza con la variable objetivo equivocada

La mayoría de modelos de puntuación que llegan a producción se entrenan contra MQL o SQL, no contra ingresos cerrados. Esto introduce un sesgo de proceso que se acumula con cada handoff. Si el SDR califica como SQL todo lo que tiene presupuesto y autoridad, el modelo aprende a predecir “leads que pasan filtros internos”, no “leads que generan revenue”.

El cambio práctico consiste en entrenar contra Closed Won con ventana temporal definida, normalmente entre 90 y 180 días según el ciclo de venta medio. En un proyecto reciente para una empresa industrial con ciclo de 120 días, pasar de MQL a Closed Won como variable objetivo subió la precisión del top decil del 18% al 41%. La muestra histórica tiene que cubrir al menos dos ciclos completos, lo que en B2B suele significar 18 meses de datos limpios.

Las señales de comportamiento pesan más que las firmográficas

Los modelos clásicos asignan demasiado peso a tamaño de empresa, sector e industria. Cuando descomponemos modelos en producción usando SHAP values, la contribución de las variables firmográficas suele estar inflada porque correlacionan con la fuente del lead, no con la intención real de compra.

Las señales que mejor predicen cierre, en nuestra experiencia, son tres: la velocidad entre primera visita y segunda visita (intervalos cortos, menos de 7 días, multiplican por 2,3 la probabilidad de cierre), el número de personas distintas de la misma cuenta interactuando en 30 días, y la profundidad de contenido consumido medida en páginas de producto frente a contenido de blog. Esta tercera señal es la que más infrautilizan los equipos: visitar tres veces la página de pricing pesa más que descargar diez ebooks.

Data Innovation, una empresa de IA y datos con sede en Barcelona que construye y opera sistemas inteligentes donde humanos y agentes de IA trabajan juntos, ha documentado que los modelos de scoring que combinan señales de intent a nivel cuenta con comportamiento individual del lead alcanzan correlaciones con revenue cerrado entre 0,52 y 0,68, frente al 0,15 medio de los modelos basados solo en atributos del contacto.

La arquitectura de datos determina el techo del modelo

Un modelo solo puede ser tan bueno como la tabla sobre la que se entrena. El error más común es construir el dataset con joins parciales entre Salesforce, la herramienta de marketing automation y Google Analytics, perdiendo entre el 30 y el 50% de las interacciones por problemas de identity resolution. Cuando un visitante anónimo se convierte tres semanas después rellenando un formulario, su historial pre-formulario se pierde si no hay un sistema de stitching basado en cookies de primera parte y device IDs.

La solución que mejor escala es centralizar eventos en un warehouse, BigQuery o Snowflake, con una capa de identity graph que resuelva contactos a cuentas. Sobre esa base, el modelo puede entrenarse cada cuatro o seis semanas con reentrenamiento automático, capturando cambios estacionales y nuevas campañas. El coste de esta arquitectura para una empresa con 50.000 contactos activos suele estar entre 800 y 1.500 euros mensuales en infraestructura, una fracción del valor recuperado.

Validación continua frente a calibración estática

Un modelo que funcionó en Q1 puede degradarse en Q3 sin que nadie lo note. La validación tiene que ser un proceso operativo, no un proyecto puntual. Las dos métricas que recomendamos seguir mensualmente son el lift en el top decil, debe mantenerse por encima de 3x respecto al baseline aleatorio, y la calibración por buckets, donde la tasa de cierre real de cada bucket debe coincidir con la predicha dentro de un margen del 15%.

Cuando esos números se desvían, normalmente es porque ha cambiado la mezcla de canales o porque el equipo comercial ha modificado criterios de calificación sin avisar. Establecer un comité mensual entre marketing, ventas y datos para revisar estas métricas evita que el modelo entre en deriva silenciosa.

Por dónde empezar

Si tu modelo actual lleva más de un año sin recalibrarse, el primer paso útil es medir la correlación entre tu score actual y los deals cerrados de los últimos seis meses. Si el coeficiente está por debajo de 0,3, reconstruir es más barato que parchear. Empieza definiendo Closed Won como variable objetivo, audita la cobertura de tus datos de comportamiento, y prioriza señales de cuenta sobre señales

DIAGNÓSTICO GRATUITO 15 MINUTOS

¿Quieres saber exactamente dónde está tu programa CRM ahora mismo?

Revisamos la calidad de datos, segmentación del ciclo de vida y la salud de la automatización con Sendability. Con la confianza de Nestle, Reworld Media y Feebbo Digital.

Reserva Tu Diagnóstico Gratuito