RESEARCH53
From Confident Closing to Silent Failure: Characterizing False Success in LLM Agents
arXiv CS.LG·10. Juni 2026
Dieses Papier charakterisiert den „falschen Erfolg“ bei LLM-Agenten, bei dem diese die Aufgaben completion behaupten, obwohl der Umgebungszustand das Gegenteil zeigt. Die Studie, die über zwei Agenten-Benchmarks durchgeführt wurde, zeigt, dass dieser Fehlermodus häufig ist und dass LLM-Richter ihn nicht zuverlässig erkennen können, da sie sich eher auf oberflächliche Abschluss-Proxys als auf verifizierte Zustandsänderungen verlassen.
Original lesen ↗