RESEARCH53

From Confident Closing to Silent Failure: Characterizing False Success in LLM Agents

arXiv CS.LG·10 juin 2026

Cet article caractérise le « faux succès » chez les agents LLM, où ils affirment avoir terminé une tâche même lorsque l'état de l'environnement indique le contraire. L'étude, menée sur deux benchmarks d'agents, révèle que ce mode de défaillance est courant et que les juges LLM échouent de manière fiable à le détecter, s'appuyant sur des proxies de complétion de surface plutôt que sur des changements d'état vérifiés.

LLM agents evaluation benchmarking AI failures

Lire l'original ↗