Benchmarks

67 items

NEWSDEV.to AI·vor 7T

Claude Opus 4.8: Dynamic Workflows and Parallel Subagents

Anthropic hat Claude Opus 4.8 veröffentlicht, das dynamische Workflows einführt, die Hunderte paralleler Subagenten für komplexe Aufgaben ermöglichen. Diese Version zeigt signifikante Verbesserungen bei Benchmarks wie SWE-bench Verified und USAMO, bei unveränderten Standardpreisen und einem neuen, günstigeren Fast-Modus.

AI models Anthropic Benchmarks large language models

RESEARCHDEV.to AI·5/7/2026

AI agent logs expose reproducibility gaps

KI-Agentenprotokolle decken erhebliche Reproduzierbarkeitslücken auf, wobei autonome Agenten selbst nach anfänglichen Erfolgen, insbesondere bei Web-Navigation, häufig scheitern können. Studien, wie das SWE-chat-Korpus, zeigen, dass weniger als die Hälfte des von Agenten erzeugten Codes in Benutzer-Commits übernommen wird, was eine kritische Diskrepanz zwischen Benchmark-Ergebnissen und der realen Zuverlässigkeit offenbart.

software development Reliability Reproducibility Benchmarks

RESEARCHarXiv CS.CL·5/1/2026

CL-bench Life: Can Language Models Learn from Real-Life Context?

CL-bench Life ist ein neuer, von Menschen kuratierter Benchmark, der bewerten soll, ob aktuelle Sprachmodelle effektiv aus komplexen, unübersichtlichen Alltagskontexten lernen können. Er umfasst 405 Kontext-Aufgaben-Paare, um die Fähigkeit der Modelle zu testen, über persönliche und soziale Erfahrungen zu argumentieren.

context-learning language models Benchmarks

RESEARCHarXiv CS.AI·4/27/2026

Math Takes Two: A test for emergent mathematical reasoning in communication

Dieses Papier stellt Math Takes Two vor, einen neuen Benchmark zur Bewertung des emergenten mathematischen Denkens in Sprachmodellen durch Kommunikation. Es testet, ob zwei Agenten ohne mathematisches Vorwissen ein geteiltes symbolisches Protokoll entwickeln können, um eine visuell verankerte Aufgabe zu lösen, bei der ein Zahlensystem die Extrapolation erleichtert.

language models mathematical reasoning AI communication Benchmarks

RESEARCHarXiv CS.CL·4/16/2026

WorkRB: A Community-Driven Evaluation Framework for AI in the Work Domain

WorkRB ist der erste quelloffene, gemeinschaftsgetriebene Benchmark für KI im Arbeitsbereich, der Forschungsfragmentierung und die Sensibilität von Beschäftigungsdaten adressiert. Er vereinigt 13 diverse Aufgaben aus 7 Gruppen als Empfehlungs- und NLP-Aufgaben, wie Stellen-/Fähigkeitsempfehlung und Fähigkeitenextraktion.

hiring future-of-work recommender systems NLP

RESEARCHarXiv CS.AI·5/4/2026

ARMOR 2025: A Military-Aligned Benchmark for Evaluating Large Language Model Safety Beyond Civilian Contexts

ARMOR 2025 ist ein neuer, militärisch ausgerichteter Benchmark zur Bewertung der Sicherheit großer Sprachmodelle (LLMs) in Verteidigungsanwendungen. Er berücksichtigt militärische Doktrinen wie das Kriegsrecht und die Einsatzregeln, um die Einhaltung rechtlicher und ethischer Standards zu gewährleisten.

ethics military AI Benchmarks AI safety

RESEARCHarXiv CS.AI·vor 17T

AttuneBench: A Conversation-Based Benchmark for LLM Emotional Intelligence

AttuneBench ist ein neuer Benchmark, der auf 200 echten mehrstufigen Mensch-Modell-Konversationen basiert, um die emotionale Intelligenz von LLMs zu bewerten. Er misst die Fähigkeit von Modellen, emotionale Zustände im Verlauf realer Gespräche zu erkennen und angemessen darauf zu reagieren, und zeigt, dass die Modellrankings bei Emotionserkennung und anderen Metriken weitgehend unabhängig sind.

Emotional Intelligence Benchmarks human-AI interaction AI evaluation

RESEARCHarXiv CS.CL·vor 29T

MultiSoc-4D: A Benchmark for Diagnosing Instruction-Induced Label Collapse in Closed-Set LLM Annotation of Bengali Social Media

MultiSoc-4D ist ein neuer Benchmark für bengalische Social-Media-Daten, der das Verhalten von LLMs bei der Closed-Set-Annotation diagnostizieren soll. Die Untersuchung zeigt ein Phänomen namens „anweisungsinduzierter Label-Kollaps“, bei dem LLMs Standard-Labels bevorzugen und Minderheitskategorien untererfassen.

LLMs Natural Language Processing Data Annotation Benchmarks

RESEARCHarXiv CS.AI·vor 17T

SMDD-Bench: Can LLMs Solve Real-World Small Molecule Drug Design Tasks?

Der Artikel stellt SMDD-Bench vor, einen neuen Multi-Turn-Benchmark mit 502 lösbaren Aufgaben zur Bewertung der Leistung von LLM-Agenten im realen Design von niedermolekularen Medikamenten. Ziel ist es, die Bewertung über verschiedene Chemikalien und Targets zu standardisieren, was ein starkes chemisches, biologisches und 3D-Verständnis erfordert.

LLMs Scientific Discovery Benchmarks drug design

RESEARCHarXiv CS.CL·vor 29T

Domain-level metacognitive monitoring in frontier LLMs: A 33-model atlas

Diese Studie präsentiert einen Atlas der domänenbasierten metakognitiven Überwachung bei 33 führenden LLMs, wobei 1.500 MMLU-Items in sechs Domänen analysiert wurden. Sie zeigt erhebliche innerhalbmodellische Variationen auf, wobei angewandtes/professionelles Wissen am einfachsten und formales Denken/Naturwissenschaften am schwierigsten zu überwachen waren.

LLMs Metacognition cognitive AI Benchmarks

RESEARCHarXiv CS.CL·vor 6T

IdiomX A Multilingual Benchmark for Idiom Understanding, Retrieval, and Interpretation

IdiomX ist ein großer mehrsprachiger Benchmark, der eingeführt wurde, um die Herausforderungen idiomatischer Ausdrücke in der natürlichen Sprachverarbeitung anzugehen. Er enthält über 190.000 kontextualisierte Beispiele für über 12.000 Redewendungen mit ausgerichteten semantischen Darstellungen in Englisch, Arabisch und Französisch.

language models Natural Language Processing datasets Benchmarks

RESEARCHarXiv CS.AI·vor 14T

BODHI: Precise OS Kernel Specification Inference

Dieses Papier stellt BODHI vor, eine Domänenwissens-Prompting-Methode zur Inferenz von Betriebssystemkernel-Spezifikationen, um aktuelle LLM-Einschränkungen zu überwinden. Sie erweitert den Standard-Few-Shot-Prompt mit einem strukturierten C-zu-Python-Übersetzungsleitfaden und verbessert die Automatisierung und Spezifikationsgenauigkeit.

AI models LLMs operating systems Formal verification

RESEARCHarXiv CS.CL·vor 8T

CanLegalRAGBench: Evaluating Retrieval-Augmented Generation on Canadian Case Law

Diese Arbeit stellt CanLegalRAGBench vor, einen neuen kanadischen Rechts-QA-Benchmark zur Bewertung von Retrieval-Augmented Generation (RAG)-Systemen mit realistischen Anfragen und von Experten annotierten Fallrecht-Antworten. Sie zeigt die Sensibilität der Retrieval-Leistung, die Wettbewerbsfähigkeit von Open-Source-Embedding-Modellen sowie die Grenzen automatischer Bewertungen und LLM-Halluzinationen in generierten Antworten auf.

Retrieval Augmented Generation LLMs evaluation Legal AI

RESEARCHarXiv CS.AI·vor 13T

Constraint acquisition needs better benchmarks

Aktuelle Benchmarks für die Beschaffung von Randbedingungen (CA) und mathematische Programmiermodelle (MP) sind unzureichend, was die Reproduzierbarkeit und Vergleichbarkeit der Forschung behindert. Diese Arbeit stellt MPMMine vor, eine neue Benchmark-Suite, die entwickelt wurde, um MP-Modelle mittels verschiedener Domänenwissensartefakte zu validieren und zu verbessern, wobei Konsistenz und Offenheit gefördert werden.

Model Validation Constraint Acquisition Mathematical Programming Benchmarks

ARTICLEDEV.to AI·vor 22T

GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, and Benchmarks

Dieser Inhalt vergleicht GPT-5.5 und Claude Opus 4.7, zwei führende KI-Sprachmodelle, und erörtert deren Verbesserungen und Schwerpunkte. Er soll bei der Auswahl des besten KI-Modells für Projekte helfen, indem er Preis, Geschwindigkeit und Benchmarks detailliert darlegt.

AI models GPT Claude Benchmarks

RESEARCHDEV.to AI·vor 13T

SpatialBench: New Benchmark Tests Foundation Models on 3D Tasks

SpatialBench ist ein neuer Benchmark von ropedia_ai, der räumliche Grundlagenmodelle über 7 Aufgaben und 5 Datensätze hinweg bewertet. Er testet das wahre 3D-Raumverständnis in Bereichen wie Tiefenschätzung, Oberflächennormalenvorhersage und 3D-Objekterkennung.

spatial computing 3D Foundation Models Benchmarks

RESEARCHDEV.to AI·vor 13T

NVIDIA Vera CPU Benchmarks: 1.55x Faster Than Intel Xeon in Phoronix Tests

Die NVIDIA Vera CPU-Benchmarks von Phoronix zeigen eine 1,55-mal schnellere Leistung als der Intel Xeon 6980P und 10% mehr als der AMD EPYC 9575F. Dieser 88-Core-ARM-Prozessor mit einer Speicherbandbreite von 1,2 TB/s ist für „agentic“ KI-Workloads konzipiert.

CPU AI hardware Benchmarks NVIDIA

RESEARCHDEV.to AI·4/21/2026

KWBench: New Benchmark Tests LLMs' Unprompted Problem Recognition

Forscher haben KWBench eingeführt, einen 223-Aufgaben umfassenden Benchmark, der misst, ob LLMs spieltheoretische Probleme in beruflichen Szenarien unaufgefordert erkennen können. Das beste Modell bestand nur 27,9% der Aufgaben, was eine kritische Lücke zwischen Aufgabenlösung und situativem Verständnis aufzeigt.

LLMs Benchmarks AI evaluation

RESEARCHarXiv CS.CL·4/7/2026

CresOWLve: Benchmarking Creative Problem-Solving Over Real-World Knowledge

CresOWLve é um novo benchmark para avaliar a resolução criativa de problemas em LLMs, superando as limitações dos benchmarks existentes. Ele utiliza quebra-cabeças baseados em conhecimento do mundo real, exigindo diversas estratégias de pensamento criativo e combinação de fatos para encontrar soluções.

LLMs Creative Problem Solving Benchmarks Cognitive Abilities

RESEARCHarXiv CS.CL·vor 28T

Magis-Bench: Evaluating LLMs on Magistrate-Level Legal Tasks

Magis-Bench ist ein neuer Benchmark zur Bewertung von großen Sprachmodellen (LLMs) bei juristischen Aufgaben auf Richterniveau, der 74 Fragen aus aktuellen brasilianischen Wettbewerbsprüfungen für Richterpositionen verwendet. Er bewertet 23 hochmoderne LLMs mittels einer "LLM-als-Richter"-Methodik mit hoher Inter-Richter-Übereinstimmung.

LLMs Legal AI Judicial tasks Benchmarks