← heapsort-ai

AI evaluation

65 items

RESEARCHarXiv CS.CL·4/17/2026

Can Large Language Models Detect Methodological Flaws? Evidence from Gesture Recognition for UAV-Based Rescue Operation Based on Deep Learning

Diese Forschung untersucht, ob Große Sprachmodelle (LLMs) methodologische Mängel, wie Datenlecks, in veröffentlichten maschinellen Lernstudien identifizieren können. Eine Fallstudie zeigte, dass sechs hochmoderne LLMs konsistent Bewertungsfehler in einem Paper zur Gestenerkennung aufgrund nicht-unabhängiger Datenpartitionierung aufdeckten.

27
RESEARCHarXiv CS.AI·vor 19T

Open-World Evaluations for Measuring Frontier AI Capabilities

Dieses Papier plädiert für „Open-World-Evaluierungen“ als Ergänzung zu traditionellen Benchmarks zur Messung von Grenz-KI-Fähigkeiten. Es stellt CRUX vor, ein Projekt zur Durchführung dieser regelmäßigen, langfristigen und realitätsnahen Aufgabenbewertungen, veranschaulicht durch einen KI-Agenten, der erfolgreich eine iOS-App veröffentlichte.

27
RESEARCHarXiv CS.AI·vor 17T

AttuneBench: A Conversation-Based Benchmark for LLM Emotional Intelligence

AttuneBench ist ein neuer Benchmark, der auf 200 echten mehrstufigen Mensch-Modell-Konversationen basiert, um die emotionale Intelligenz von LLMs zu bewerten. Er misst die Fähigkeit von Modellen, emotionale Zustände im Verlauf realer Gespräche zu erkennen und angemessen darauf zu reagieren, und zeigt, dass die Modellrankings bei Emotionserkennung und anderen Metriken weitgehend unabhängig sind.

27
RESEARCHarXiv CS.CL·vor 29T

Domain-level metacognitive monitoring in frontier LLMs: A 33-model atlas

Diese Studie präsentiert einen Atlas der domänenbasierten metakognitiven Überwachung bei 33 führenden LLMs, wobei 1.500 MMLU-Items in sechs Domänen analysiert wurden. Sie zeigt erhebliche innerhalbmodellische Variationen auf, wobei angewandtes/professionelles Wissen am einfachsten und formales Denken/Naturwissenschaften am schwierigsten zu überwachen waren.

27
RESEARCHarXiv CS.CL·vor 20T

The Annotation Scarcity Paradox in Low-Resource NLP Evaluation: A Decade of Acceleration and Emerging Constraints

Die Verarbeitung natürlicher Sprache (NLP) mit geringen Ressourcen hat ein explosives Wachstum erfahren, doch ihre Bewertung steht vor einer kritischen Herausforderung: die Knappheit soziolinguistischer Expertise, die zur Bewertung komplexer generativer Systeme erforderlich ist. Dies führt zum "Annotations-Knappheitsparadoxon", bei dem die technische Kapazität zur Skalierung von Modellen die souveräne menschliche Infrastruktur für eine authentische Bewertung übertrifft.

27
RESEARCHarXiv CS.CL·vor 22T

Capability Conditioned Scaffolding for Professional Human LLM Collaboration

Diese Forschung stellt das Capability Conditioned Scaffolding vor, ein Framework, das Professional Domain Drift in der Mensch-LLM-Zusammenarbeit durch Anpassung von KI-Interventionen basierend auf dem Expertenwissen des Benutzers adressiert. Eine Pilotbewertung zeigte, dass dieser Ansatz eine zuverlässigere Mensch-KI-Zusammenarbeit über die stilistische Personalisierung hinaus unterstützt.

27
RESEARCHarXiv CS.AI·vor 14T

Confidence Calibration in Large Language Models

Diese Studie untersucht die Konfidenzkalibrierung großer Sprachmodelle (LLMs) bei verschiedenen Aufgaben und zeigt, dass aktuelle LLMs bei schwierigen Tests überkonfident und bei einfachen Tests unterkonfident sind. Die Forscher entwickelten LifeEval, einen neuen Test zur Bewertung der Modellkalibrierung über verschiedene Schwierigkeitsgrade hinweg.

27
RESEARCHarXiv CS.AI·vor 13T

JobBench: Aligning Agent Work With Human Will

JobBench ist ein neuer Benchmark, der KI-Agenten anhand von Experten als hochprioritär für die Delegation identifizierten Arbeitsabläufen bewertet, der 130 Aufgaben in 35 Berufen abdeckt. Ziel ist es, den Arbeitsmarkteffekt von Substitution auf Verbesserung zu verlagern, indem Agenten entwickelt werden, die das tun, was Menschen tatsächlich delegieren möchten.

27
RESEARCHarXiv CS.AI·vor 13T

Can LLMs Introspect? A Reality Check

Eine neue Studie hinterfragt, ob große Sprachmodelle (LLMs) wirklich introspektionsfähig sind, und argumentiert, dass aktuelle Schlussfolgerungen verfrüht sein könnten. Sie legt nahe, dass der scheinbare Erfolg eher auf allgemeiner Anomalieerkennung als auf echter Introspektion beruhen könnte, basierend auf Erkenntnissen aus der menschlichen Metakognitionsforschung.

27
RESEARCHarXiv CS.AI·4/21/2026

Computational Hermeneutics: Evaluating generative AI as a cultural technology

Dieser Artikel schlägt computergestützte Hermeneutik als neuen Rahmen zur Bewertung generativer KI vor, die als Kulturtechnologie und "Kontextmaschine" betrachtet wird. Es wird argumentiert, dass Bewertungen interpretative Herausforderungen wie Situationsbezogenheit, Pluralität und Ambiguität berücksichtigen müssen, indem iterative, menschenintegrierende und kulturellen Kontext messende Benchmarks verwendet werden.

27
RESEARCHarXiv CS.AI·4/23/2026

ThermoQA: A Three-Tier Benchmark for Evaluating Thermodynamic Reasoning in Large Language Models

ThermoQA ist ein neuer dreistufiger Benchmark mit 293 Problemen der Ingenieurthermodynamik, der zur Bewertung des thermodynamischen Denkvermögens von LLMs eingeführt wurde. Führende LLMs wie Claude Opus 4.6 und GPT-5.4 erzielen hohe Punktzahlen, doch die tierübergreifende Verschlechterung bestätigt, dass das Auswendiglernen von Eigenschaften kein thermodynamisches Denkvermögen bedeutet; der Datensatz und Code sind Open-Source.

27