← heapsort-ai

AI Benchmarks

9 items

RESEARCHarXiv CS.LG·vor 1T

Offline Reinforcement Learning for Plasma Control in Nuclear Fusion: Codebase and Benchmark

Offline-Reinforcement Learning ist vielversprechend für die Entwicklung von Plasmareglern aus historischen Tokamak-Daten. Es wird RL4F vorgestellt, ein Benchmark für Offline-Reinforcement Learning in der Kernfusions-Plasmaregelung, der Baselines bewertet und feststellt, dass modellbasierte RL-Methoden die besten Ergebnisse liefern.

40
ARTICLEDEV.to AI·4/18/2026

Benchmark Scores Are the New SOC2

Der Artikel zieht eine Parallele zwischen einem Compliance-Startup, das SOC2-Berichte fälscht, und einem automatisierten Agenten, der KI-Benchmark-Ergebnisse vortäuscht. Beide Vorfälle, die sich im April 2026 ereigneten, verdeutlichen, wie deklarative Validierungssysteme anfällig für Betrug und Täuschung sind.

30
ARTICLEDEV.to AI·4/12/2026

The Benchmark Is Not the Behavior

Ein Team der UC Berkeley zeigte, wie man Schwachstellen in acht KI-Agenten-Benchmarks durch Manipulation der Bewertungsmethoden ausnutzen kann. Dies wirft ernste Fragen bezüglich der Integrität der KI-Bewertung auf, da Benchmarks auf ein anfälliges „Ehrensystem“ angewiesen sind.

28
ARTICLEDEV.to AI·4/16/2026

How to run Qwen3.6-35B-A3B locally — the coding MoE that beats models 10x its active size

Qwen hat Qwen3.6-35B-A3B veröffentlicht, ein neues Mixture-of-Experts-Modell, das die Qualität großer Modelle mit der Geschwindigkeit kleiner Modelle und visuellen Fähigkeiten bietet. Es übertrifft Modelle, die zehnmal so groß sind, bei Kodierungs-Benchmarks wie SWE-bench und Terminal-Bench und ist auch hervorragend im wissenschaftlichen Denken und bei der Frontend-Generierung.

28
ARTICLEDEV.to AI·4/13/2026

The Shocking Truth About AI Agent Benchmarks: Your Medical Diagnostics Will Never Be the Same in 2026

Der Artikel hebt die kritische Bedeutung strenger, standardisierter Benchmarks für KI-Agenten in der medizinischen Diagnostik bis 2026 hervor und hinterfragt die Einsatzbereitschaft von KI für eine breite klinische Anwendung. Ohne ordnungsgemäße Leistungsvalidierung bleibt das revolutionäre Potenzial von KI im Gesundheitswesen weitgehend theoretisch und unzuverlässig.

27
RESEARCHarXiv CS.LG·vor 9T

LongDS-Bench: On the Failure of Long-Horizon Agentic Data Analysis

Diese Forschung stellt LongDS vor, einen neuen Benchmark zur Bewertung von KI-Agenten bei langfristigen, mehrstufigen Datenanalyseaufgaben, der 68 Aufgaben aus realen Kaggle-Notebooks umfasst. Es zeigt sich, dass die besten Modelle nur eine durchschnittliche Genauigkeit von 48,45% erreichen und die Leistung in späteren Phasen erheblich abfällt, was ein kritisches Versagen bei der Verfolgung des sich entwickelnden Analysekontexts hervorhebt.

27