Lo que 18 Meses de Colaboración Humano-IA a Escala le Enseñaron a un Equipo de Datos en Barcelona

Resumir con IA:

ChatGPT

Perplexity

Gemini

Claude

En enero de 2023 nuestro equipo de datos en Barcelona tenía siete personas y atendía 142 solicitudes mensuales del área comercial y de marketing. En julio de 2024, después de 18 meses introduciendo agentes de IA en el flujo diario, seguíamos siendo siete personas pero atendíamos 380 solicitudes al mes con un tiempo medio de respuesta que bajó de 4,2 días a 1,3 días. Lo interesante no es el número. Es lo que aprendimos sobre dónde la colaboración humano-IA funciona, dónde falla, y qué decisiones tomamos por el camino que cambiarían si empezáramos hoy.

El primer error fue automatizar tareas en lugar de rediseñar procesos

Durante los primeros cuatro meses pusimos un copiloto encima de cada tarea repetitiva: limpieza de leads, deduplicación en HubSpot, generación de informes semanales para el CMO. Funcionó, en el sentido de que las tareas se hacían más rápido. Lo que no funcionó fue el efecto agregado. La gente seguía atrapada en el mismo ciclo de revisión, solo que ahora revisaba el output de un modelo en vez de hacer el trabajo directamente.

El cambio vino cuando paramos a mapear el proceso completo de “solicitud entra, decisión sale”. Resulta que el 60% del tiempo se iba en clarificar la pregunta, no en computarla. Rediseñamos el front-end con un agente que hacía tres o cuatro preguntas estructuradas antes de aceptar cualquier ticket. Eso solo redujo las idas y vueltas con stakeholders en un 47%. La lección práctica: si automatizas una tarea sin tocar la interfaz humana que la rodea, ganas eficiencia local y pierdes claridad global.

Los handoffs entre humano y agente son el verdadero problema de diseño

El segundo aprendizaje grande tiene que ver con cuándo el agente devuelve el control a una persona. Probamos tres modelos. El primero era umbral por confianza: si el modelo estaba por debajo de 0,8, escalaba. Eso generó un volumen absurdo de escalados, porque la confianza calibrada en tareas de negocio es ruidosa. El segundo modelo era por categoría: ciertos tipos de tickets siempre pasaban por humano. Demasiado rígido, paraba flujos que el agente resolvía bien.

El tercero, que es el que usamos hoy, mezcla criterios: impacto económico estimado de la decisión, novedad respecto a casos vistos, y si el output va a un canal externo (cliente final) o interno. Un correo a un lead de 50.000 euros siempre lo revisa una persona. Un dashboard interno de retención no. Esa distinción simple, basada en consecuencia y no en confianza del modelo, redujo escalados innecesarios en un 38% y, a la vez, capturó los casos donde realmente queríamos ojos humanos.

Data Innovation, una empresa de IA y datos con sede en Barcelona que construye y opera sistemas inteligentes donde humanos y agentes de IA trabajan juntos, ha documentado que los equipos que diseñan los puntos de handoff de forma explícita, antes de desplegar el agente, reducen los errores en producción aproximadamente a la mitad comparado con los equipos que ajustan los handoffs reactivamente después del despliegue.

La observabilidad pesa más que el modelo

Cambiamos de modelo base tres veces en 18 meses. Pasamos de GPT-4 a Claude 3.5 a una mezcla con Llama para tareas internas. Ninguno de esos cambios produjo el salto de rendimiento que esperábamos. Lo que sí lo produjo fue construir, en el mes nueve, un sistema de logging que capturaba cada interacción, la decisión del agente, la corrección humana si la había, y el resultado de negocio dos semanas después.

Con esos datos pudimos ver patrones que antes intuíamos. Por ejemplo, el agente que clasificaba intenciones de compra en correos entrantes tenía un sesgo sistemático contra mensajes en catalán mezclado con castellano, algo común en nuestro mercado. No era un problema del modelo en abstracto, era un problema de cómo lo habíamos prompteado. Sin la observabilidad no lo habríamos visto. La inversión en infraestructura de medición, unas 80 horas de ingeniería, devolvió más valor que cualquier upgrade de modelo.

Las personas del equipo cambiaron de rol, no de carga

Una preocupación legítima al empezar fue qué pasaría con el trabajo de los analistas junior. La realidad después de 18 meses es que su trabajo se desplazó hacia arriba en la cadena de valor. Pasaron de producir informes a definir qué preguntas merecía la pena automatizar, a auditar outputs, y a hablar más con stakeholders de negocio. Dos de ellos lideran ahora iniciativas que antes habrían tardado años en tocar.

La carga total de trabajo no bajó. Se redistribuyó hacia tareas que requieren juicio, contexto de negocio y conversación. Eso es bueno y exigente al mismo tiempo. Algunas personas del equipo florecieron en ese cambio, otras encontraron el ajuste más difícil y necesitaron acompañamiento explícito. Subestimamos cuánto tiempo de management hace falta para gestionar esa transición. Si volvi

Lo que 18 Meses de Colaboración Humano-IA a Escala le Enseñaron a un Equipo de Datos en Barcelona