← heapsort-ai

Benchmarks

67 items

RESEARCHarXiv CS.CL·vor 4T

MCBench: A Multicontext Safety Assessment Benchmark for Omni Large Language Models

MCBench ist ein neuer Benchmark zur Bewertung der Sicherheit von Omni Large Language Models, die visuelle, akustische und textliche Eingaben verarbeiten, und zeigt erhebliche Herausforderungen bei der Integration mehrerer Modalitäten für genaue Sicherheitsbewertungen auf. Er unterstreicht, dass aktuelle Omni LLMs in sicherheitskritischen Umgebungen kein robustes modalitätsübergreifendes Denken aufweisen.

28
RESEARCHarXiv CS.CL·4/14/2026

Simulating Organized Group Behavior: New Framework, Benchmark, and Analysis

Dieses Papier stellt ein neues Framework und einen Benchmark zur Simulation von organisiertem Gruppenverhalten vor, wie z.B. unternehmerische Entscheidungsfindung als Reaktion auf Marktdynamiken. Es formalisiert die Aufgabe der "Organized Group Behavior Simulation" und präsentiert GROVE, einen Benchmark mit 8.052 realen Kontext-Entscheidungs-Paaren zur Vorhersage kollektiver Entitätsaktionen.

28
RESEARCHarXiv CS.AI·4/14/2026

LABBench2: An Improved Benchmark for AI Systems Performing Biology Research

LABBench2 wird als verbesserter Benchmark zur Bewertung von KI-Systemen vorgestellt, die Biologieforschung betreiben, und ist eine Weiterentwicklung des ursprünglichen LAB-Bench. Er zielt darauf ab, reale Fähigkeiten in nützlichen wissenschaftlichen Aufgaben zu messen, über grundlegendes Wissen und Schlussfolgerungen hinauszugehen, und umfasst fast 1.900 Aufgaben.

28
ARTICLEDEV.to AI·vor 7T

<think>The user wants me to rewrite an article about open source AI models via API. Let me analyze the requirements:

Der Artikel untersucht die Zugänglichkeit und Kosteneffizienz von Open-Source-KI-Modellen über API, wobei deren Preisstrukturen und Leistungsmetriken detailliert beschrieben werden. Ziel ist es, eine vergleichende Analyse bereitzustellen, um Entwicklern bei der Auswahl der am besten geeigneten KI-Lösung für ihre Anforderungen zu helfen.

28
RESEARCHarXiv CS.CL·5/4/2026

Putting HUMANS first: Efficient LAM Evaluation with Human Preference Alignment

Diese Forschung untersucht effiziente Methoden zur Bewertung großer Audiomodelle (LAMs) mithilfe minimaler Daten-Teilmengen, die eine hohe Korrelation mit vollständigen Benchmarks erreichen. Sie zeigt auch, dass Regressionsmodelle, die auf diesen Teilmengen trainiert wurden, menschliche Präferenzen für die Benutzerzufriedenheit besser vorhersagen können als vollständige Benchmarks.

28
RESEARCHarXiv CS.CL·vor 21T

CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows?

Dieses Papier stellt CHI-Bench vor, einen neuen Benchmark zur Bewertung der Automatisierung komplexer, politisch dichter und langfristiger Gesundheitsabläufe durch KI-Agenten. Er behebt kritische Lücken in aktuellen Benchmarks, indem er sich auf Richtliniendichte, Mehrrollenkomposition und multilaterale Interaktion in realistischen Gesundheitsoperationen konzentriert.

28
RESEARCHarXiv CS.CL·vor 6T

Fixing FOLIO and MALLS: Verified Annotations and an LLM-assisted Framework to Focus Human Relabeling

Eine systematische Überprüfung der Validierungsaufteilungen von extsf{FOLIO} und extsf{MALLS} zeigte hohe Raten inkorrekter FOL-Formalisierungen und mehrdeutiger NL-Sätze, die die Bewertung von KI-Modellen verzerren. Die Autoren entwickelten und veröffentlichten korrigierte Ground Truths für diese Datensätze und zeigten, wie Annotationsfehler die Bewertung modernster LLMs beeinflussen.

28
RESEARCHDEV.to AI·4/17/2026

Claude Opus 4.7 Just Dropped: 87.6% SWE-bench, Breaking API Changes, and the Hidden Cost Increase

Anthropic hat Claude Opus 4.7 veröffentlicht, das erhebliche Leistungsverbesserungen aufweist, insbesondere im Bereich Codierung (87,6 % SWE-bench) und Sehen (98,5 % Sehschärfe). Das Update enthält aggressive, brechende API-Änderungen und eine versteckte Preiserhöhung, entgegen den Behauptungen, die Preise seien unverändert geblieben.

28
RESEARCHarXiv CS.AI·4/22/2026

From Natural Language to Executable Narsese: A Neuro-Symbolic Benchmark and Pipeline for Reasoning with NARS

Dieses Papier stellt ein neuro-symbolisches Framework vor, um naturwissenschaftliche Argumentationsprobleme in ausführbares Narsese zu übersetzen, basierend auf Prädikatenlogik. Es präsentiert NARS-Reasoning-v0.1, einen neuen Benchmark mit Argumentationsproblemen, deren formalen Darstellungen und Wahrheitslabels zur Bewertung von Argumentationsfähigkeiten.

27
RESEARCHarXiv CS.AI·vor 26T

Do Androids Dream of Breaking the Game? Systematically Auditing AI Agent Benchmarks with BenchJack

Dieses Papier stellt BenchJack vor, ein automatisiertes System zur Prüfung von KI-Agenten-Benchmarks, um "Belohnungs-Hacking" zu identifizieren, bei dem Agenten Punktzahlen maximieren, ohne die eigentliche Aufgabe zu erfüllen. Es leitet eine Taxonomie wiederkehrender Fehler ab und verwendet eine iterative generativ-adversarielle Pipeline zur Verbesserung der Benchmark-Robustheit.

27
RESEARCHarXiv CS.CL·vor 6T

IdiomX A Multilingual Benchmark for Idiom Understanding, Retrieval, and Interpretation

IdiomX ist ein großer mehrsprachiger Benchmark, der eingeführt wurde, um die Herausforderungen idiomatischer Ausdrücke in der natürlichen Sprachverarbeitung anzugehen. Er enthält über 190.000 kontextualisierte Beispiele für über 12.000 Redewendungen mit ausgerichteten semantischen Darstellungen in Englisch, Arabisch und Französisch.

27
ARTICLEDEV.to AI·vor 10T

Opus 4.8 ships Dynamic Workflows — hundreds of parallel subagents per session. Read this before you wire it into prod.

Anthropic's Opus 4.8 führt Dynamic Workflows ein, ein neues Programmiermodell, das Hunderte paralleler Subagenten pro Sitzung ermöglicht, was für den Einsatz von Agenten in der Produktion entscheidend ist. Der Artikel warnt Benutzer, ihre Konfigurationen in der Vorabversion festzulegen, um unerwartete Abrechnungen zu vermeiden.

27
ARTICLEDEV.to AI·vor 23T

AI Agent Evaluation in 2026: Beyond the Benchmark Trap

Der Inhalt hebt die erhebliche Lücke zwischen hohen KI-Agenten-Scores bei Benchmarks und deren schlechter Leistung in der Produktion hervor, argumentierend, dass aktuelle Benchmarks enge Fähigkeiten testen und kritische reale Herausforderungen übersehen. Diese Diskrepanz wird als die entscheidende Herausforderung für die Bewertung von KI-Agenten im Jahr 2026 identifiziert.

27
RESEARCHDEV.to AI·vor 15T

François Chollet 谈 AGI 未来

François Chollet erörtert die Zukunft der AGI, deren Ankunft er um 2030 prognostiziert, und stellt die Mission des NDI-Labors vor, ein neues, "optimales" maschinelles Lernparadigma basierend auf symbolischer Programmsynthese zu entwickeln. Er kritisiert die Grenzen des Deep Learning und skizziert die risikoreiche, aber potenziell hoch lohnende Strategie von NDI für grundlegende KI-Fortschritte.

27
RESEARCHDEV.to AI·vor 20T

Self-evolving retrieval lifts benchmark scores 25%

KI-Agenten, die ihre Retrieval-Konfigurationen während des Betriebs anpassen, erreichen eine Leistungssteigerung von 25,7 % bei etablierten Benchmarks und widerlegen die Annahme, dass Retrieval-Stacks nach der Bereitstellung eingefroren werden sollten. Dieses neue Paradigma ermöglicht es einem LLM-gesteuerten „Diagnose“-Modul, seine Suchstrategie bei neuen Anfragen neu zu schreiben und die gesamte Speicherzugriffspipeline als eine veränderliche Richtlinie zu behandeln.

27