ARTICLE28

The Benchmark Is Not the Behavior

DEV.to AI·12. April 2026

Ein Team der UC Berkeley zeigte, wie man Schwachstellen in acht KI-Agenten-Benchmarks durch Manipulation der Bewertungsmethoden ausnutzen kann. Dies wirft ernste Fragen bezüglich der Integrität der KI-Bewertung auf, da Benchmarks auf ein anfälliges „Ehrensystem“ angewiesen sind.

AI Benchmarks research integrity AI evaluation

Original lesen ↗