RESEARCH29

What VAKRA Reveals About Why Agents Actually Fail

DEV.to AI·22. April 2026

VAKRA, ein neuer Benchmark von IBM Research, zeigt, dass KI-Agenten auf vorhersagbare, strukturelle Weise versagen, indem er Bruchstellen zwischen Argumentation, Werkzeugauswahl und Ausführung abbildet. Er zerlegt Agentenversagen in sechs spezifische Kategorien und geht über traditionelle binäre Bewertungen hinaus, um gemeinsame Schwächen aufzudecken.

failure analysis Model Evaluation Benchmarking Reasoning AI agents

Original lesen ↗