Pular para o conteúdo
Klarna não falhou em IA. Falhou em definir quando ela deveria ter parado.

Klarna não falhou em IA. Falhou em definir quando ela deveria ter parado.

Em janeiro de 2024, a Klarna anunciou que sua IA havia substituído 700 atendentes e gerado US$ 60 milhões em economia anual. Em maio de 2025, voltou a contratar humanos.

O caso virou referência rápida de “IA falhou no atendimento”. Essa leitura está errada.

A IA fez o que prometia. Em tier 1 (status de pedido, ajustes simples, troca de senha), respondia mais rápido que um humano. Satisfação ficou perto do baseline.

Foi o que veio depois que quebrou.

Ao longo de 2024, a composição das conversas mudou. Casos simples sumiam em segundos. Casos complexos, briga de cobrança, reembolso emperrado, conflito com lojista, ficavam circulando entre tentativas automáticas.

O cliente saía sem solução e sem um caminho claro para o humano.

A pesquisa pós-atendimento começou a registrar a mesma reclamação em três idiomas: “o robô não me entendeu e não me deixou falar com alguém”. A métrica que o time interno acompanhava (tempo médio de atendimento) continuou caindo. A métrica que o cliente vivia, resolução na primeira interação para casos complexos, ninguém estava medindo.

Em maio de 2025, Sebastian Siemiatkowski, CEO da Klarna, disse à Bloomberg que tinham “ido longe demais”. A queda de qualidade nos casos sensíveis era um custo que ninguém modelou.

A leitura preguiçosa: a IA não estava pronta. Não é isso.

O projeto começou com a hipótese certa. Reduzir tier 1 com IA é dos casos de uso mais validados em varejo e fintech.

Não faltou tecnologia. Faltou um critério explícito: quando essa IA deveria parar de atender, e quando deveria passar para um humano.

A decisão que parecia técnica era organizacional.

Pense na sua operação por um segundo.

Antes de qualquer tempo médio cair, existe um número anterior: a fatia de casos que precisam, e recebem, escalada humana. Esse número é a fronteira entre o que a IA opera e o que ela não opera.

Sem essa fronteira definida no começo, “a IA atende” vira o default. O sistema responde tudo porque ninguém disse para ele parar.

Aqui está o que importa: a omissão raramente é deliberada. Ela acontece porque a pergunta “o que a IA não deve atender?” é mais difícil que a pergunta que ela substitui, “o que a IA deve atender?”.

A primeira força briga entre áreas: operação, jurídico, CX, financeiro. A segunda tem resposta técnica limpa. Pular a conversa difícil é o caminho de menor resistência.

Aparece como cegueira de métrica seis a nove meses depois.

Na Klarna, em retrospecto, o sintoma era visível na semana três do rollout. A taxa de transferência para humanos havia caído para perto de zero.

Não porque os casos viraram simples. Porque o caminho para o humano havia sido suprimido.

Esse número sozinho era suficiente para acionar uma revisão. Não foi tratado como alerta porque ninguém tinha definido qual era a faixa esperada.

O critério que faltou

Se sua operação está pensando em IA para tier 1, três indicadores precisam existir desde a primeira semana em produção:

  • Taxa de escalada para humano, com a faixa esperada definida em conversa ANTES do go-live. Se cair muito abaixo ou subir muito acima, alguém grita.
  • Resolução na primeira interação, medida separada para casos simples e casos complexos. Na média, a métrica engana. Casos simples resolvem fácil e arrastam o número para cima enquanto casos complexos quebram em silêncio.
  • Pesquisa qualitativa por amostragem, lida por um humano sênior, com peso real na decisão de continuar ou ajustar.

Cada um responde uma pergunta diferente.

A taxa de escalada conta se a IA está ultrapassando o limite. A primeira interação conta se o problema do cliente terminou de verdade. A pesquisa qualitativa conta o que os números não enxergam.

Acompanhar só os dois primeiros constrói uma operação que parece saudável no relatório. Acompanhar só o terceiro produz anedota sem escala.

O trabalho está em manter os três barulhentos na mesma cadência.

Nenhum dos três é novo. Todos são padrão em operações de atendimento maduras.

O que IA mudou não foi a necessidade do indicador. Foi a facilidade de esquecer dele.

O número que aparece no dashboard do CFO fica bonito enquanto os três acima se deterioram em silêncio.

A janela em que o problema é visível e ainda barato de corrigir é estreita. Na Klarna, pelo histórico público, ela durou da semana três até o fim do trimestre seguinte.

Depois disso, a operação havia se reorganizado em volta do número errado.

Reverter custou campanha de comunicação, recontratação, e uma fração da credibilidade que a empresa tinha em volta do tema.

O que este post não está afirmando

Não temos acesso à arquitetura interna da Klarna. Não estamos dizendo que a liderança foi imprudente em tentar.

A tentativa era razoável e o aprendizado público vale para a indústria inteira.

Estamos dizendo, apenas, que um post-mortem honesto desse caso aponta para uma omissão de critério, não para uma falha de modelo.

A diferença importa para você.

Se sua próxima conversa de orçamento envolve “vamos usar IA para reduzir custo no atendimento”, a pergunta antes de aprovar não é “qual modelo?”. É essa: “qual é a faixa de escalada humana que vamos defender, e qual é o gatilho de revisão se ela sair dessa faixa?”

Essa pergunta tem que estar respondida na semana zero. Na semana sessenta, é tarde.

Seja honesto consigo mesmo.

Olha pra sua operação atual. Se ela tem um agente automático em algum ponto da régua de atendimento, abra o painel agora.

Procure a taxa de escalada para humano. Se você não souber dizer qual deveria ser, esse é o trabalho de antes do código.

Não é trabalho técnico. É uma briga entre operação, jurídico, CX e financeiro sobre o que cada um vai defender.

Difícil de fazer sozinho porque cada área defende o número que ela já mede. Mais fácil de fazer com alguém de fora na sala que conhece a forma da conversa e força o fechamento.

Manda os três indicadores que tua operação já acompanha no atendimento. Em uma hora te devolvo quais predizem o problema da Klarna e quais são ruído.

Se virmos uma forma de projeto, o Diagnóstico de duas semanas termina com um documento de uma página: três indicadores, três faixas alvo, três gatilhos de revisão. Esse documento vai pra parede da operação.