ARTICLE28
The Benchmark Is Not the Behavior
DEV.to AI·12. April 2026
Ein Team der UC Berkeley zeigte, wie man Schwachstellen in acht KI-Agenten-Benchmarks durch Manipulation der Bewertungsmethoden ausnutzen kann. Dies wirft ernste Fragen bezüglich der Integrität der KI-Bewertung auf, da Benchmarks auf ein anfälliges „Ehrensystem“ angewiesen sind.
Original lesen ↗