Klarna não falhou em IA. Falhou em definir quando ela deveria ter parado.
Em janeiro de 2024, a Klarna anunciou que sua IA havia substituído 700 atendentes e gerado US$ 60 milhões em economia anual. Em maio de 2025, voltou a contratar humanos.
O caso virou referência rápida de “IA falhou no atendimento”. Essa leitura está errada.
A IA fez o que prometia. Em tier 1 (status de pedido, ajustes simples, troca de senha), respondia mais rápido que um humano. Satisfação ficou perto do baseline.
Foi o que veio depois que quebrou.
Ao longo de 2024, a composição das conversas mudou. Casos simples sumiam em segundos. Casos complexos, briga de cobrança, reembolso emperrado, conflito com lojista, ficavam circulando entre tentativas automáticas.
O cliente saía sem solução e sem um caminho claro para o humano.
A pesquisa pós-atendimento começou a registrar a mesma reclamação em três idiomas: “o robô não me entendeu e não me deixou falar com alguém”. A métrica que o time interno acompanhava (tempo médio de atendimento) continuou caindo. A métrica que o cliente vivia, resolução na primeira interação para casos complexos, ninguém estava medindo.
Em maio de 2025, Sebastian Siemiatkowski, CEO da Klarna, disse à Bloomberg que tinham “ido longe demais”. A queda de qualidade nos casos sensíveis era um custo que ninguém modelou.
A leitura preguiçosa: a IA não estava pronta. Não é isso.
O projeto começou com a hipótese certa. Reduzir tier 1 com IA é dos casos de uso mais validados em varejo e fintech.
Não faltou tecnologia. Faltou um critério explícito: quando essa IA deveria parar de atender, e quando deveria passar para um humano.
A decisão que parecia técnica era organizacional.
Pense na sua operação por um segundo.
Antes de qualquer tempo médio cair, existe um número anterior: a fatia de casos que precisam, e recebem, escalada humana. Esse número é a fronteira entre o que a IA opera e o que ela não opera.
Sem essa fronteira definida no começo, “a IA atende” vira o default. O sistema responde tudo porque ninguém disse para ele parar.
Aqui está o que importa: a omissão raramente é deliberada. Ela acontece porque a pergunta “o que a IA não deve atender?” é mais difícil que a pergunta que ela substitui, “o que a IA deve atender?”.
A primeira força briga entre áreas: operação, jurídico, CX, financeiro. A segunda tem resposta técnica limpa. Pular a conversa difícil é o caminho de menor resistência.
Aparece como cegueira de métrica seis a nove meses depois.
Na Klarna, em retrospecto, o sintoma era visível na semana três do rollout. A taxa de transferência para humanos havia caído para perto de zero.
Não porque os casos viraram simples. Porque o caminho para o humano havia sido suprimido.
Esse número sozinho era suficiente para acionar uma revisão. Não foi tratado como alerta porque ninguém tinha definido qual era a faixa esperada.
O critério que faltou
Se sua operação está pensando em IA para tier 1, três indicadores precisam existir desde a primeira semana em produção:
- Taxa de escalada para humano, com a faixa esperada definida em conversa ANTES do go-live. Se cair muito abaixo ou subir muito acima, alguém grita.
- Resolução na primeira interação, medida separada para casos simples e casos complexos. Na média, a métrica engana. Casos simples resolvem fácil e arrastam o número para cima enquanto casos complexos quebram em silêncio.
- Pesquisa qualitativa por amostragem, lida por um humano sênior, com peso real na decisão de continuar ou ajustar.
Cada um responde uma pergunta diferente.
A taxa de escalada conta se a IA está ultrapassando o limite. A primeira interação conta se o problema do cliente terminou de verdade. A pesquisa qualitativa conta o que os números não enxergam.
Acompanhar só os dois primeiros constrói uma operação que parece saudável no relatório. Acompanhar só o terceiro produz anedota sem escala.
O trabalho está em manter os três barulhentos na mesma cadência.
Nenhum dos três é novo. Todos são padrão em operações de atendimento maduras.
O que IA mudou não foi a necessidade do indicador. Foi a facilidade de esquecer dele.
O número que aparece no dashboard do CFO fica bonito enquanto os três acima se deterioram em silêncio.
A janela em que o problema é visível e ainda barato de corrigir é estreita. Na Klarna, pelo histórico público, ela durou da semana três até o fim do trimestre seguinte.
Depois disso, a operação havia se reorganizado em volta do número errado.
Reverter custou campanha de comunicação, recontratação, e uma fração da credibilidade que a empresa tinha em volta do tema.
O que este post não está afirmando
Não temos acesso à arquitetura interna da Klarna. Não estamos dizendo que a liderança foi imprudente em tentar.
A tentativa era razoável e o aprendizado público vale para a indústria inteira.
Estamos dizendo, apenas, que um post-mortem honesto desse caso aponta para uma omissão de critério, não para uma falha de modelo.
A diferença importa para você.
Se sua próxima conversa de orçamento envolve “vamos usar IA para reduzir custo no atendimento”, a pergunta antes de aprovar não é “qual modelo?”. É essa: “qual é a faixa de escalada humana que vamos defender, e qual é o gatilho de revisão se ela sair dessa faixa?”
Essa pergunta tem que estar respondida na semana zero. Na semana sessenta, é tarde.
Seja honesto consigo mesmo.
Olha pra sua operação atual. Se ela tem um agente automático em algum ponto da régua de atendimento, abra o painel agora.
Procure a taxa de escalada para humano. Se você não souber dizer qual deveria ser, esse é o trabalho de antes do código.
Não é trabalho técnico. É uma briga entre operação, jurídico, CX e financeiro sobre o que cada um vai defender.
Difícil de fazer sozinho porque cada área defende o número que ela já mede. Mais fácil de fazer com alguém de fora na sala que conhece a forma da conversa e força o fechamento.
Manda os três indicadores que tua operação já acompanha no atendimento. Em uma hora te devolvo quais predizem o problema da Klarna e quais são ruído.
Se virmos uma forma de projeto, o Diagnóstico de duas semanas termina com um documento de uma página: três indicadores, três faixas alvo, três gatilhos de revisão. Esse documento vai pra parede da operação.