Benchmarks

67 items

RESEARCHarXiv CS.CL·vor 4T

MCBench: A Multicontext Safety Assessment Benchmark for Omni Large Language Models

MCBench ist ein neuer Benchmark zur Bewertung der Sicherheit von Omni Large Language Models, die visuelle, akustische und textliche Eingaben verarbeiten, und zeigt erhebliche Herausforderungen bei der Integration mehrerer Modalitäten für genaue Sicherheitsbewertungen auf. Er unterstreicht, dass aktuelle Omni LLMs in sicherheitskritischen Umgebungen kein robustes modalitätsübergreifendes Denken aufweisen.

multimodal AI LLMs Cross-modal reasoning Benchmarks

RESEARCHarXiv CS.CL·4/14/2026

Simulating Organized Group Behavior: New Framework, Benchmark, and Analysis

Dieses Papier stellt ein neues Framework und einen Benchmark zur Simulation von organisiertem Gruppenverhalten vor, wie z.B. unternehmerische Entscheidungsfindung als Reaktion auf Marktdynamiken. Es formalisiert die Aufgabe der "Organized Group Behavior Simulation" und präsentiert GROVE, einen Benchmark mit 8.052 realen Kontext-Entscheidungs-Paaren zur Vorhersage kollektiver Entitätsaktionen.

Decision Making Organizational Behavior Benchmarks Market Prediction

RESEARCHarXiv CS.AI·4/14/2026

LABBench2: An Improved Benchmark for AI Systems Performing Biology Research

LABBench2 wird als verbesserter Benchmark zur Bewertung von KI-Systemen vorgestellt, die Biologieforschung betreiben, und ist eine Weiterentwicklung des ursprünglichen LAB-Bench. Er zielt darauf ab, reale Fähigkeiten in nützlichen wissenschaftlichen Aufgaben zu messen, über grundlegendes Wissen und Schlussfolgerungen hinauszugehen, und umfasst fast 1.900 Aufgaben.

Scientific Discovery Language Agents Biology Research Benchmarks

RESEARCHDEV.to AI·4/23/2026

qwen3.6-27b scores 77.2% on SWE-bench. the dense model is winning against MoE.

Das dichte Modell Qwen3.6-27B übertraf das Qwen3.6-35B-A3B MoE-Modell auf SWE-bench mit 77.2% gegenüber 73.4%. Dies deutet darauf hin, dass dichte Modelle für reale Softwareentwicklungsaufgaben effektiver sein könnten.

AI models Model Architecture Benchmarks MoE

ARTICLEDEV.to AI·vor 7T

<think>The user wants me to rewrite an article about open source AI models via API. Let me analyze the requirements:

Der Artikel untersucht die Zugänglichkeit und Kosteneffizienz von Open-Source-KI-Modellen über API, wobei deren Preisstrukturen und Leistungsmetriken detailliert beschrieben werden. Ziel ist es, eine vergleichende Analyse bereitzustellen, um Entwicklern bei der Auswahl der am besten geeigneten KI-Lösung für ihre Anforderungen zu helfen.

AI models open-source AI API Benchmarks

RESEARCHarXiv CS.CL·5/4/2026

Putting HUMANS first: Efficient LAM Evaluation with Human Preference Alignment

Diese Forschung untersucht effiziente Methoden zur Bewertung großer Audiomodelle (LAMs) mithilfe minimaler Daten-Teilmengen, die eine hohe Korrelation mit vollständigen Benchmarks erreichen. Sie zeigt auch, dass Regressionsmodelle, die auf diesen Teilmengen trainiert wurden, menschliche Präferenzen für die Benutzerzufriedenheit besser vorhersagen können als vollständige Benchmarks.

Model Evaluation efficiency Benchmarks Large Audio Models

RESEARCHarXiv CS.CL·vor 21T

CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows?

Dieses Papier stellt CHI-Bench vor, einen neuen Benchmark zur Bewertung der Automatisierung komplexer, politisch dichter und langfristiger Gesundheitsabläufe durch KI-Agenten. Er behebt kritische Lücken in aktuellen Benchmarks, indem er sich auf Richtliniendichte, Mehrrollenkomposition und multilaterale Interaktion in realistischen Gesundheitsoperationen konzentriert.

Workflows Healthcare Benchmarks automation

RESEARCHarXiv CS.CL·vor 6T

Fixing FOLIO and MALLS: Verified Annotations and an LLM-assisted Framework to Focus Human Relabeling

Eine systematische Überprüfung der Validierungsaufteilungen von extsf{FOLIO} und extsf{MALLS} zeigte hohe Raten inkorrekter FOL-Formalisierungen und mehrdeutiger NL-Sätze, die die Bewertung von KI-Modellen verzerren. Die Autoren entwickelten und veröffentlichten korrigierte Ground Truths für diese Datensätze und zeigten, wie Annotationsfehler die Bewertung modernster LLMs beeinflussen.

LLMs Neurosymbolic AI natural language processing Benchmarks

RESEARCHDEV.to AI·4/17/2026

Claude Opus 4.7 Just Dropped: 87.6% SWE-bench, Breaking API Changes, and the Hidden Cost Increase

Anthropic hat Claude Opus 4.7 veröffentlicht, das erhebliche Leistungsverbesserungen aufweist, insbesondere im Bereich Codierung (87,6 % SWE-bench) und Sehen (98,5 % Sehschärfe). Das Update enthält aggressive, brechende API-Änderungen und eine versteckte Preiserhöhung, entgegen den Behauptungen, die Preise seien unverändert geblieben.

AI model release API Benchmarks performance

ARTICLEDEV.to AI·4/10/2026

LLM API Pricing in 2026: I Put Every Major Model in One Table

O artigo analisa os preços das APIs de LLMs em 2026, revelando uma variação de até 100x entre os modelos e compilando uma tabela de referência detalhada. Ele compara custos de entrada, saída, cache e performance (SWE-bench) para modelos como DeepSeek V4, GPT-5.4, Claude, Gemini, Mistral e Groq, destacando opções econômicas e outliers.

API pricing AI models comparison Benchmarks

RESEARCHarXiv CS.AI·4/22/2026

From Natural Language to Executable Narsese: A Neuro-Symbolic Benchmark and Pipeline for Reasoning with NARS

Dieses Papier stellt ein neuro-symbolisches Framework vor, um naturwissenschaftliche Argumentationsprobleme in ausführbares Narsese zu übersetzen, basierend auf Prädikatenlogik. Es präsentiert NARS-Reasoning-v0.1, einen neuen Benchmark mit Argumentationsproblemen, deren formalen Darstellungen und Wahrheitslabels zur Bewertung von Argumentationsfähigkeiten.

LLMs Reasoning Benchmarks Neuro-symbolic AI

RESEARCHarXiv CS.AI·vor 26T

Do Androids Dream of Breaking the Game? Systematically Auditing AI Agent Benchmarks with BenchJack

Dieses Papier stellt BenchJack vor, ein automatisiertes System zur Prüfung von KI-Agenten-Benchmarks, um "Belohnungs-Hacking" zu identifizieren, bei dem Agenten Punktzahlen maximieren, ohne die eigentliche Aufgabe zu erfüllen. Es leitet eine Taxonomie wiederkehrender Fehler ab und verwendet eine iterative generativ-adversarielle Pipeline zur Verbesserung der Benchmark-Robustheit.

red-teaming reward hacking security Benchmarks

RESEARCHarXiv CS.CL·vor 6T

IdiomX A Multilingual Benchmark for Idiom Understanding, Retrieval, and Interpretation

IdiomX ist ein großer mehrsprachiger Benchmark, der eingeführt wurde, um die Herausforderungen idiomatischer Ausdrücke in der natürlichen Sprachverarbeitung anzugehen. Er enthält über 190.000 kontextualisierte Beispiele für über 12.000 Redewendungen mit ausgerichteten semantischen Darstellungen in Englisch, Arabisch und Französisch.

language models natural language processing datasets Benchmarks

ARTICLEDEV.to AI·vor 10T

Opus 4.8 ships Dynamic Workflows — hundreds of parallel subagents per session. Read this before you wire it into prod.

Anthropic's Opus 4.8 führt Dynamic Workflows ein, ein neues Programmiermodell, das Hunderte paralleler Subagenten pro Sitzung ermöglicht, was für den Einsatz von Agenten in der Produktion entscheidend ist. Der Artikel warnt Benutzer, ihre Konfigurationen in der Vorabversion festzulegen, um unerwartete Abrechnungen zu vermeiden.

Dynamic Workflows Anthropic Benchmarks Opus 4.8

ARTICLEDEV.to AI·4/26/2026

GPT-5.5 Just Dropped. Here's What the Benchmarks Are Hiding.

Dieser Artikel analysiert das kürzlich veröffentlichte GPT-5.5 und vergleicht es mit Claude-Modellen in spezifischen Benchmarks für verschiedene Aufgabentypen. Es zeigt sich, dass GPT-5.5 bei Ausführungsaufgaben überlegen ist, während Claude-Modelle für Forschung (wegen geringerer Halluzinationsraten), Debugging und Orchestrierung bevorzugt werden.

AI models AI capabilities use cases model comparison

ARTICLEDEV.to AI·vor 23T

AI Agent Evaluation in 2026: Beyond the Benchmark Trap

Der Inhalt hebt die erhebliche Lücke zwischen hohen KI-Agenten-Scores bei Benchmarks und deren schlechter Leistung in der Produktion hervor, argumentierend, dass aktuelle Benchmarks enge Fähigkeiten testen und kritische reale Herausforderungen übersehen. Diese Diskrepanz wird als die entscheidende Herausforderung für die Bewertung von KI-Agenten im Jahr 2026 identifiziert.

evaluation AI deployment Benchmarks AI development

RESEARCHDEV.to AI·vor 15T

François Chollet 谈 AGI 未来

François Chollet erörtert die Zukunft der AGI, deren Ankunft er um 2030 prognostiziert, und stellt die Mission des NDI-Labors vor, ein neues, "optimales" maschinelles Lernparadigma basierend auf symbolischer Programmsynthese zu entwickeln. Er kritisiert die Grenzen des Deep Learning und skizziert die risikoreiche, aber potenziell hoch lohnende Strategie von NDI für grundlegende KI-Fortschritte.

AGI deep learning Symbolic AI Benchmarks

RESEARCHDEV.to AI·vor 23T

Glean benchmark: Off-the-shelf MCP costs 30% more tokens than indexed context

Ein neuer Glean-Benchmark in Claude Cowork zeigt, dass handelsübliche MCP-Server 2,5-mal häufiger fehlschlagen und 30% mehr Token verbrauchen als Gleans indizierte Kontextschicht. Benutzer berichteten auch, ihre Claude-Token-Rechnung um 30% gesenkt zu haben, indem sie Gleans Ansatz nutzten.

language models Claude Cowork AI Efficiency Benchmarks

RESEARCHDEV.to AI·vor 20T

Self-evolving retrieval lifts benchmark scores 25%

KI-Agenten, die ihre Retrieval-Konfigurationen während des Betriebs anpassen, erreichen eine Leistungssteigerung von 25,7 % bei etablierten Benchmarks und widerlegen die Annahme, dass Retrieval-Stacks nach der Bereitstellung eingefroren werden sollten. Dieses neue Paradigma ermöglicht es einem LLM-gesteuerten „Diagnose“-Modul, seine Suchstrategie bei neuen Anfragen neu zu schreiben und die gesamte Speicherzugriffspipeline als eine veränderliche Richtlinie zu behandeln.

Adaptive AI Benchmarks Retrieval systems AI agents

RESEARCHDEV.to AI·5/5/2026

BrowseComp: A Simple Yet Challenging Benchmark for Browsing Agents

BrowseComp ist ein neuer und herausfordernder Benchmark zur Bewertung von Browsing-Agenten. Er konzentriert sich auf komplexe Aufgaben, die kontextuelles Verständnis und Interaktion mit Weboberflächen erfordern, und bietet eine neue Metrik für die KI-Leistung.

evaluation research Benchmarks AI