AI evaluation

65 items

RESEARCHarXiv CS.CL·4/17/2026

Can Large Language Models Detect Methodological Flaws? Evidence from Gesture Recognition for UAV-Based Rescue Operation Based on Deep Learning

Diese Forschung untersucht, ob Große Sprachmodelle (LLMs) methodologische Mängel, wie Datenlecks, in veröffentlichten maschinellen Lernstudien identifizieren können. Eine Fallstudie zeigte, dass sechs hochmoderne LLMs konsistent Bewertungsfehler in einem Paper zur Gestenerkennung aufgrund nicht-unabhängiger Datenpartitionierung aufdeckten.

deep learning machine learning large language models AI evaluation

RESEARCHarXiv CS.AI·vor 19T

Open-World Evaluations for Measuring Frontier AI Capabilities

Dieses Papier plädiert für „Open-World-Evaluierungen“ als Ergänzung zu traditionellen Benchmarks zur Messung von Grenz-KI-Fähigkeiten. Es stellt CRUX vor, ein Projekt zur Durchführung dieser regelmäßigen, langfristigen und realitätsnahen Aufgabenbewertungen, veranschaulicht durch einen KI-Agenten, der erfolgreich eine iOS-App veröffentlichte.

AI capabilities CRUX project open-world evaluations frontier AI

RESEARCHarXiv CS.AI·vor 17T

AttuneBench: A Conversation-Based Benchmark for LLM Emotional Intelligence

AttuneBench ist ein neuer Benchmark, der auf 200 echten mehrstufigen Mensch-Modell-Konversationen basiert, um die emotionale Intelligenz von LLMs zu bewerten. Er misst die Fähigkeit von Modellen, emotionale Zustände im Verlauf realer Gespräche zu erkennen und angemessen darauf zu reagieren, und zeigt, dass die Modellrankings bei Emotionserkennung und anderen Metriken weitgehend unabhängig sind.

Emotional Intelligence Benchmarks human-AI interaction AI evaluation

RESEARCHarXiv CS.CL·vor 29T

Domain-level metacognitive monitoring in frontier LLMs: A 33-model atlas

Diese Studie präsentiert einen Atlas der domänenbasierten metakognitiven Überwachung bei 33 führenden LLMs, wobei 1.500 MMLU-Items in sechs Domänen analysiert wurden. Sie zeigt erhebliche innerhalbmodellische Variationen auf, wobei angewandtes/professionelles Wissen am einfachsten und formales Denken/Naturwissenschaften am schwierigsten zu überwachen waren.

LLMs Metacognition cognitive AI Benchmarks

RESEARCHarXiv CS.CL·vor 25T

Physics-R1: An Audited Olympiad Corpus and Recipe for Visual Physics Reasoning

Diese Arbeit prüft multimodale Physik-Evaluierungspipelines und deckt Konstruktionspraktiken auf, die die Messung des Seh-Sprach-Argumentierens verzerren. Sie behandelt Trainings-Evaluierungs-Kontamination, Übersetzungsdrift und MCQ-Sättigung und veröffentlicht neue Artefakte zur Behebung dieser Mängel.

multimodal AI Physics reasoning Corpus development Benchmarking

RESEARCHarXiv CS.CL·vor 20T

The Annotation Scarcity Paradox in Low-Resource NLP Evaluation: A Decade of Acceleration and Emerging Constraints

Die Verarbeitung natürlicher Sprache (NLP) mit geringen Ressourcen hat ein explosives Wachstum erfahren, doch ihre Bewertung steht vor einer kritischen Herausforderung: die Knappheit soziolinguistischer Expertise, die zur Bewertung komplexer generativer Systeme erforderlich ist. Dies führt zum "Annotations-Knappheitsparadoxon", bei dem die technische Kapazität zur Skalierung von Modellen die souveräne menschliche Infrastruktur für eine authentische Bewertung übertrifft.

machine learning NLP Low-resource languages AI evaluation

RESEARCHarXiv CS.CL·vor 26T

In-Situ Behavioral Evaluation for LLM Fairness, Not Standardized-Test Scores

Dieser Artikel schlägt vor, die Fairness von LLMs durch In-situ-Konversationsverhalten anstelle von standardisierten Tests zu bewerten. Er stellt das MAC-Fairness-Framework für die Verhaltensanalyse im Multi-Agenten-Dialog vor und zeigt die Unzuverlässigkeit traditioneller Ansätze auf.

LLM fairness Research Methods multi-agent systems AI evaluation

RESEARCHarXiv CS.CL·vor 22T

Capability Conditioned Scaffolding for Professional Human LLM Collaboration

Diese Forschung stellt das Capability Conditioned Scaffolding vor, ein Framework, das Professional Domain Drift in der Mensch-LLM-Zusammenarbeit durch Anpassung von KI-Interventionen basierend auf dem Expertenwissen des Benutzers adressiert. Eine Pilotbewertung zeigte, dass dieser Ansatz eine zuverlässigere Mensch-KI-Zusammenarbeit über die stilistische Personalisierung hinaus unterstützt.

human-AI collaboration User expertise Domain Adaptation LLM interaction

RESEARCHarXiv CS.AI·vor 11T

BEAMS: Benchmarking and Evaluating AI for Modeling and Simulation

Die BEAMS-Initiative zielt darauf ab, die Entwicklung von KI-Tools für Modellierung und Simulation verantwortungsvoll und ethisch zu gestalten, indem sie menschenzentrierte Benchmarks etabliert. Sie nutzt eine offene Infrastruktur und das Open-Source-Projekt 'sd ai', um KI-Tools kollaborativ zu bewerten.

open-source AI modeling and simulation Benchmarking AI evaluation

RESEARCHarXiv CS.AI·vor 11T

Review Arcade: On the Human Alignment and Gameability of LLM Reviews

Diese Forschung bewertet LLM-generierte Rezensionen für wissenschaftliche Artikel aus der Perspektive von Autoren und Gutachtern. Sie zeigt eine begrenzte Übereinstimmung mit menschlichen Rezensionen und wie Autoren LLM-Rezensionen "spielen" können, um Einreichungen zu verbessern.

scientific review human-AI interaction AI evaluation LLM

RESEARCHarXiv CS.AI·vor 14T

Confidence Calibration in Large Language Models

Diese Studie untersucht die Konfidenzkalibrierung großer Sprachmodelle (LLMs) bei verschiedenen Aufgaben und zeigt, dass aktuelle LLMs bei schwierigen Tests überkonfident und bei einfachen Tests unterkonfident sind. Die Forscher entwickelten LifeEval, einen neuen Test zur Bewertung der Modellkalibrierung über verschiedene Schwierigkeitsgrade hinweg.

Confidence Calibration Overconfidence machine learning large language models

RESEARCHarXiv CS.AI·vor 13T

OmniToM: Benchmarking Theory of Mind in LLMs via Explicit Belief Modeling

OmniToM ist ein neuer Benchmark zur Bewertung der Theory of Mind in LLMs durch explizite Modellierung von Überzeugungsstrukturen. Er überwindet die Grenzen der reinen Endpunkt-Fragebeantwortung und ermöglicht eine tiefere Analyse mentaler Zustandsrepräsentationen, einschließlich abweichender oder fehlerhafter Überzeugungen.

LLMs Social Reasoning Benchmarking AI evaluation

RESEARCHarXiv CS.AI·vor 13T

JobBench: Aligning Agent Work With Human Will

JobBench ist ein neuer Benchmark, der KI-Agenten anhand von Experten als hochprioritär für die Delegation identifizierten Arbeitsabläufen bewertet, der 130 Aufgaben in 35 Berufen abdeckt. Ziel ist es, den Arbeitsmarkteffekt von Substitution auf Verbesserung zu verlagern, indem Agenten entwickelt werden, die das tun, was Menschen tatsächlich delegieren möchten.

future-of-work job delegation Benchmarking AI evaluation

RESEARCHarXiv CS.AI·vor 13T

Can LLMs Introspect? A Reality Check

Eine neue Studie hinterfragt, ob große Sprachmodelle (LLMs) wirklich introspektionsfähig sind, und argumentiert, dass aktuelle Schlussfolgerungen verfrüht sein könnten. Sie legt nahe, dass der scheinbare Erfolg eher auf allgemeiner Anomalieerkennung als auf echter Introspektion beruhen könnte, basierend auf Erkenntnissen aus der menschlichen Metakognitionsforschung.

LLMs cognitive science Metacognition Introspection

RESEARCHDEV.to AI·4/21/2026

KWBench: New Benchmark Tests LLMs' Unprompted Problem Recognition

Forscher haben KWBench eingeführt, einen 223-Aufgaben umfassenden Benchmark, der misst, ob LLMs spieltheoretische Probleme in beruflichen Szenarien unaufgefordert erkennen können. Das beste Modell bestand nur 27,9% der Aufgaben, was eine kritische Lücke zwischen Aufgabenlösung und situativem Verständnis aufzeigt.

LLMs Benchmarks AI evaluation

RESEARCHarXiv CS.AI·4/21/2026

Computational Hermeneutics: Evaluating generative AI as a cultural technology

Dieser Artikel schlägt computergestützte Hermeneutik als neuen Rahmen zur Bewertung generativer KI vor, die als Kulturtechnologie und "Kontextmaschine" betrachtet wird. Es wird argumentiert, dass Bewertungen interpretative Herausforderungen wie Situationsbezogenheit, Pluralität und Ambiguität berücksichtigen müssen, indem iterative, menschenintegrierende und kulturellen Kontext messende Benchmarks verwendet werden.

humanities AI ethics AI evaluation Generative AI

ARTICLEHugging Face Blog·4/29/2026

AI evals are becoming the new compute bottleneck

KI-Bewertungen entwickeln sich zum neuen Compute-Engpass, ähnlich den früheren Einschränkungen durch Rechenleistung. Dies deutet darauf hin, dass die für die Bewertung von KI-Modellen benötigten Ressourcen und Zeit zu einer großen Bremse für den Fortschritt werden.

computational resources machine learning infrastructure AI evaluation AI development

RESEARCHarXiv CS.AI·4/23/2026

ThermoQA: A Three-Tier Benchmark for Evaluating Thermodynamic Reasoning in Large Language Models

ThermoQA ist ein neuer dreistufiger Benchmark mit 293 Problemen der Ingenieurthermodynamik, der zur Bewertung des thermodynamischen Denkvermögens von LLMs eingeführt wurde. Führende LLMs wie Claude Opus 4.6 und GPT-5.4 erzielen hohe Punktzahlen, doch die tierübergreifende Verschlechterung bestätigt, dass das Auswendiglernen von Eigenschaften kein thermodynamisches Denkvermögen bedeutet; der Datensatz und Code sind Open-Source.

Dataset Benchmarking large language models AI evaluation

RESEARCHarXiv CS.CL·vor 28T

Magis-Bench: Evaluating LLMs on Magistrate-Level Legal Tasks

Magis-Bench ist ein neuer Benchmark zur Bewertung von großen Sprachmodellen (LLMs) bei juristischen Aufgaben auf Richterniveau, der 74 Fragen aus aktuellen brasilianischen Wettbewerbsprüfungen für Richterpositionen verwendet. Er bewertet 23 hochmoderne LLMs mittels einer "LLM-als-Richter"-Methodik mit hoher Inter-Richter-Übereinstimmung.

LLMs Legal AI Judicial tasks Benchmarks

RESEARCHarXiv CS.CL·4/15/2026

Filtered Reasoning Score: Evaluating Reasoning Quality on a Model's Most-Confident Traces

Diese Forschung stellt den "Filtered Reasoning Score" vor, eine neuartige Metrik zur Bewertung der Denkqualität in KI-Modellen. Sie konzentriert sich speziell auf die Bewertung des Denkvermögens, das in den selbstsichersten Ausgaben oder "Traces" eines Modells sichtbar ist.

AI metrics machine learning Reasoning AI evaluation