RESEARCH53

From Confident Closing to Silent Failure: Characterizing False Success in LLM Agents

arXiv CS.LG·10 de junho de 2026

Este artigo caracteriza o "falso sucesso" em agentes LLM, onde eles afirmam a conclusão da tarefa apesar de o ambiente indicar o contrário. O estudo, realizado em dois benchmarks, mostra que esse modo de falha é comum e que os julgadores LLM não conseguem detectá-lo de forma confiável, dependendo de proxies superficiais em vez de mudanças de estado verificadas.

LLM agents evaluation benchmarking AI failures

Ler original ↗