RESEARCH53
From Confident Closing to Silent Failure: Characterizing False Success in LLM Agents
arXiv CS.LG·10 juin 2026
Cet article caractérise le « faux succès » chez les agents LLM, où ils affirment avoir terminé une tâche même lorsque l'état de l'environnement indique le contraire. L'étude, menée sur deux benchmarks d'agents, révèle que ce mode de défaillance est courant et que les juges LLM échouent de manière fiable à le détecter, s'appuyant sur des proxies de complétion de surface plutôt que sur des changements d'état vérifiés.
Lire l'original ↗