RESEARCH29
What VAKRA Reveals About Why Agents Actually Fail
DEV.to AI·22. April 2026
VAKRA, ein neuer Benchmark von IBM Research, zeigt, dass KI-Agenten auf vorhersagbare, strukturelle Weise versagen, indem er Bruchstellen zwischen Argumentation, Werkzeugauswahl und Ausführung abbildet. Er zerlegt Agentenversagen in sechs spezifische Kategorien und geht über traditionelle binäre Bewertungen hinaus, um gemeinsame Schwächen aufzudecken.
Original lesen ↗