← heapsort-ai

Benchmarks

67 items

RESEARCHDEV.to AI·5/7/2026

AI agent logs expose reproducibility gaps

KI-Agentenprotokolle decken erhebliche Reproduzierbarkeitslücken auf, wobei autonome Agenten selbst nach anfänglichen Erfolgen, insbesondere bei Web-Navigation, häufig scheitern können. Studien, wie das SWE-chat-Korpus, zeigen, dass weniger als die Hälfte des von Agenten erzeugten Codes in Benutzer-Commits übernommen wird, was eine kritische Diskrepanz zwischen Benchmark-Ergebnissen und der realen Zuverlässigkeit offenbart.

27
RESEARCHarXiv CS.AI·4/27/2026

Math Takes Two: A test for emergent mathematical reasoning in communication

Dieses Papier stellt Math Takes Two vor, einen neuen Benchmark zur Bewertung des emergenten mathematischen Denkens in Sprachmodellen durch Kommunikation. Es testet, ob zwei Agenten ohne mathematisches Vorwissen ein geteiltes symbolisches Protokoll entwickeln können, um eine visuell verankerte Aufgabe zu lösen, bei der ein Zahlensystem die Extrapolation erleichtert.

27
RESEARCHarXiv CS.AI·vor 17T

AttuneBench: A Conversation-Based Benchmark for LLM Emotional Intelligence

AttuneBench ist ein neuer Benchmark, der auf 200 echten mehrstufigen Mensch-Modell-Konversationen basiert, um die emotionale Intelligenz von LLMs zu bewerten. Er misst die Fähigkeit von Modellen, emotionale Zustände im Verlauf realer Gespräche zu erkennen und angemessen darauf zu reagieren, und zeigt, dass die Modellrankings bei Emotionserkennung und anderen Metriken weitgehend unabhängig sind.

27
RESEARCHarXiv CS.CL·vor 29T

MultiSoc-4D: A Benchmark for Diagnosing Instruction-Induced Label Collapse in Closed-Set LLM Annotation of Bengali Social Media

MultiSoc-4D ist ein neuer Benchmark für bengalische Social-Media-Daten, der das Verhalten von LLMs bei der Closed-Set-Annotation diagnostizieren soll. Die Untersuchung zeigt ein Phänomen namens „anweisungsinduzierter Label-Kollaps“, bei dem LLMs Standard-Labels bevorzugen und Minderheitskategorien untererfassen.

27
RESEARCHarXiv CS.CL·vor 29T

Domain-level metacognitive monitoring in frontier LLMs: A 33-model atlas

Diese Studie präsentiert einen Atlas der domänenbasierten metakognitiven Überwachung bei 33 führenden LLMs, wobei 1.500 MMLU-Items in sechs Domänen analysiert wurden. Sie zeigt erhebliche innerhalbmodellische Variationen auf, wobei angewandtes/professionelles Wissen am einfachsten und formales Denken/Naturwissenschaften am schwierigsten zu überwachen waren.

27
RESEARCHarXiv CS.CL·vor 6T

IdiomX A Multilingual Benchmark for Idiom Understanding, Retrieval, and Interpretation

IdiomX ist ein großer mehrsprachiger Benchmark, der eingeführt wurde, um die Herausforderungen idiomatischer Ausdrücke in der natürlichen Sprachverarbeitung anzugehen. Er enthält über 190.000 kontextualisierte Beispiele für über 12.000 Redewendungen mit ausgerichteten semantischen Darstellungen in Englisch, Arabisch und Französisch.

27
RESEARCHarXiv CS.CL·vor 8T

CanLegalRAGBench: Evaluating Retrieval-Augmented Generation on Canadian Case Law

Diese Arbeit stellt CanLegalRAGBench vor, einen neuen kanadischen Rechts-QA-Benchmark zur Bewertung von Retrieval-Augmented Generation (RAG)-Systemen mit realistischen Anfragen und von Experten annotierten Fallrecht-Antworten. Sie zeigt die Sensibilität der Retrieval-Leistung, die Wettbewerbsfähigkeit von Open-Source-Embedding-Modellen sowie die Grenzen automatischer Bewertungen und LLM-Halluzinationen in generierten Antworten auf.

27
RESEARCHarXiv CS.AI·vor 13T

Constraint acquisition needs better benchmarks

Aktuelle Benchmarks für die Beschaffung von Randbedingungen (CA) und mathematische Programmiermodelle (MP) sind unzureichend, was die Reproduzierbarkeit und Vergleichbarkeit der Forschung behindert. Diese Arbeit stellt MPMMine vor, eine neue Benchmark-Suite, die entwickelt wurde, um MP-Modelle mittels verschiedener Domänenwissensartefakte zu validieren und zu verbessern, wobei Konsistenz und Offenheit gefördert werden.

27