Klarna no falló en IA. Falló al definir cuándo debía haberse detenido., Forja

Notas · Criterio, cronograma y costo de proyectos de IA · Post-mortem público

Forja · Post-mortem · 20 de mayo de 2026 · Ler em portugues › · Read in English ›

En enero de 2024, Klarna anunció que su IA había reemplazado a 700 agentes de atención y generado US$ 60 millones en ahorro anual. En mayo de 2025, la empresa volvió a contratar humanos.

El caso se convirtió en referencia rápida de “la IA falló en atención al cliente”. Esa lectura está equivocada.

La IA hizo lo que prometía. En tier 1 (estado del pedido, ajustes simples, cambio de contraseña), respondía más rápido que un humano. La satisfacción se mantuvo cerca del baseline.

Lo que vino después se rompió.

A lo largo de 2024, la composición de las conversaciones cambió. Los casos simples se resolvían en segundos. Los casos complejos, disputa de cobro, reembolso atascado, conflicto con el comerciante, quedaban dando vueltas entre intentos automáticos.

El cliente salía sin resolución y sin un camino claro hacia el humano.

La encuesta posventa empezó a registrar la misma queja en tres idiomas: “el bot no me entendió y no me dejó hablar con alguien”. La métrica que el equipo interno seguía (tiempo medio de atención) siguió bajando. La métrica que el cliente vivía, resolución en la primera interacción para casos complejos, nadie la estaba midiendo.

En mayo de 2025, Sebastian Siemiatkowski, CEO de Klarna, le dijo a Bloomberg que habían “ido demasiado lejos”. La caída de calidad en los casos sensibles era un costo que nadie modeló.

La lectura perezosa: la IA no estaba lista. No es eso.

El proyecto empezó con la hipótesis correcta. Reducir tier 1 con IA es uno de los casos de uso más validados en retail y fintech.

No faltó tecnología. Faltó un criterio explícito: cuándo esa IA debía dejar de atender, y cuándo debía pasar a un humano.

La decisión que parecía técnica era organizacional.

Piensa en tu propia operación por un segundo.

Antes de que caiga cualquier tiempo medio, existe un número anterior: la fracción de casos que necesitan, y reciben, escalada humana. Ese número es la frontera entre lo que la IA opera y lo que no.

Sin esa frontera definida al inicio, “la IA atiende” se vuelve el default. El sistema responde todo porque nadie le dijo que parara.

Acá está lo que importa: la omisión rara vez es deliberada. Sucede porque la pregunta “¿qué NO debe atender la IA?” es más difícil que la pregunta que reemplaza, “¿qué debe atender la IA?”.

La primera fuerza una pelea entre áreas: operaciones, legal, CX, finanzas. La segunda tiene respuesta técnica limpia. Saltarse la conversación difícil es el camino de menor resistencia.

Aparece como ceguera de métrica seis a nueve meses después.

En Klarna, en retrospectiva, el síntoma era visible desde la semana tres del rollout. La tasa de transferencia a humanos había caído cerca de cero.

No porque los casos se volvieron simples. Porque el camino al humano había sido suprimido.

Ese número solo bastaba para activar una revisión. No se trató como alerta porque nadie había definido cuál era la franja esperada.

El criterio que faltó

Si tu operación está pensando en IA para tier 1, tres indicadores tienen que existir desde la primera semana en producción:

Tasa de escalada al humano, con la franja esperada definida en conversación ANTES del go-live. Si cae demasiado o sube demasiado, alguien grita.
Resolución en la primera interacción, medida por separado para casos simples y casos complejos. En promedio, la métrica engaña. Los casos simples se resuelven fácil y arrastran el número hacia arriba mientras los casos complejos se rompen en silencio.
Encuesta cualitativa por muestreo, leída por un humano senior, con peso real en la decisión de continuar o ajustar.

Cada uno responde a una pregunta diferente.

La tasa de escalada cuenta si la IA está pasándose del límite. La primera interacción cuenta si el problema del cliente realmente terminó. La encuesta cualitativa cuenta lo que los números no ven.

Seguir solo los dos primeros construye una operación que parece sana en el reporte. Seguir solo el tercero produce anécdota sin escala.

El trabajo está en mantener los tres ruidosos en la misma cadencia.

Ninguno de los tres es nuevo. Todos son estándar en operaciones de atención maduras.

Lo que IA cambió no fue la necesidad del indicador. Fue la facilidad de olvidarse de él.

El número que aparece en el dashboard del CFO se ve bien mientras los tres de arriba se deterioran en silencio.

La ventana en que el problema es visible y todavía barato de corregir es estrecha. En Klarna, según el registro público, duró desde la semana tres hasta el fin del trimestre siguiente.

Después de eso, la operación se había reorganizado alrededor del número equivocado.

Revertirlo costó una campaña de comunicación, recontratación, y una fracción de la credibilidad que la empresa había construido alrededor del tema.

Lo que este post no está afirmando

No tenemos acceso a la arquitectura interna de Klarna. No estamos diciendo que el liderazgo fue imprudente al intentarlo.

El intento era razonable y el aprendizaje público vale para la industria entera.

Estamos diciendo, solamente, que un post-mortem honesto de este caso apunta a una omisión de criterio, no a una falla de modelo.

Esa diferencia importa para ti.

Si tu próxima conversación de presupuesto involucra “vamos a usar IA para reducir costo en atención”, la pregunta antes de aprobar no es “¿qué modelo?”. Es esta: “¿cuál es la franja de escalada humana que vamos a defender, y cuál es el gatillo de revisión si se sale de esa franja?”

Esa pregunta tiene que estar respondida en la semana cero. En la semana sesenta, ya es tarde.

Sé honesto contigo mismo.

Mira la operación que tienes hoy. Si tiene un agente automático en algún punto de la ruta de atención, abre el dashboard ahora.

Busca la tasa de escalada al humano. Si no sabes decir cuál debería ser, ese es el trabajo de antes del código.

No es trabajo técnico. Es una pelea entre operación, legal, CX y finanzas sobre qué va a defender cada uno.

Difícil de hacer solo porque cada área defiende el número que ya mide. Más fácil de hacer con alguien de afuera en la sala que conoce la forma de la conversación y fuerza el cierre.

Mándame los tres indicadores que tu operación ya sigue en atención. En una hora te devuelvo cuáles predicen el problema de Klarna y cuáles son ruido.

Si vemos una forma de proyecto, el Diagnóstico de dos semanas termina con un documento de una página: tres indicadores, tres franjas objetivo, tres gatillos de revisión. Ese documento va a la pared de la operación.