evaluation

53 items

RESEARCHarXiv CS.CL·vor 20T

Time to REFLECT: Can We Trust LLM Judges for Evidence-based Research Agents?

Tiefe Forschungsagenten automatisieren komplexe Informationsbeschaffungsaufgaben, was eine skalierbare und zuverlässige Bewertung erfordert. Der Einsatz von LLMs als Juroren zur Überwachung wirft Fragen nach deren Zuverlässigkeit auf und unterstreicht die Notwendigkeit einer Meta-Evaluierung für diese Juroren.

REFLECT meta-evaluation evaluation research agents

RESEARCHarXiv CS.AI·vor 13T

Anchor: Mitigating Artifact Drift in Agent Benchmark Generation

Anchor ist eine Aufgabengenerierungspipeline, die den "Artefakt-Drift" bei der Erstellung von Benchmarks für KI-Agenten adressiert. Sie formalisiert die Spezifikationen von Fachexperten in Optimierungsprogramme und erstellt konsistente Anweisungen, Umgebungen, Lösungen und Verifizierer für Geschäftsabläufe.

evaluation task generation Benchmarking business workflows

ARTICLEDEV.to AI·vor 23T

AI Agent Evaluation in 2026: Beyond the Benchmark Trap

Der Inhalt hebt die erhebliche Lücke zwischen hohen KI-Agenten-Scores bei Benchmarks und deren schlechter Leistung in der Produktion hervor, argumentierend, dass aktuelle Benchmarks enge Fähigkeiten testen und kritische reale Herausforderungen übersehen. Diese Diskrepanz wird als die entscheidende Herausforderung für die Bewertung von KI-Agenten im Jahr 2026 identifiziert.

evaluation AI deployment Benchmarks AI development

ARTICLEDEV.to AI·vor 29T

Best AI Answering Service for Contractors: An Operator's Evaluation Framework

Der Gründer eines KI-Antwortdienstes für Bauunternehmer stellt einen Rahmen zur Bewertung solcher Dienste vor und erkennt seine Voreingenommenheit an. Der Artikel bietet eine detaillierte operative Anleitung zu Tests, Instrumentierung, Verhandlung und häufigen Produktionsproblemen, speziell für Bauherren und Betreiber.

framework evaluation contractors answering service

RESEARCHDEV.to AI·5/5/2026

BrowseComp: A Simple Yet Challenging Benchmark for Browsing Agents

BrowseComp ist ein neuer und herausfordernder Benchmark zur Bewertung von Browsing-Agenten. Er konzentriert sich auf komplexe Aufgaben, die kontextuelles Verständnis und Interaktion mit Weboberflächen erfordern, und bietet eine neue Metrik für die KI-Leistung.

evaluation research Benchmarks AI

ARTICLEDEV.to AI·4/14/2026

The 5 Levels of RAG Maturity: How to Know When Your RAG Is Actually Production-Ready

Dieser Artikel befasst sich mit der häufigen Herausforderung der Evaluierung von RAG-Systemen (Retrieval-Augmented Generation) und zeigt auf, dass viele Projekte mangels einer angemessenen Evaluierung über erste Demos nicht hinauskommen. Er stellt ein 0- bis 5-stufiges Reifegradmodell vor, das Organisationen helfen soll, ihre RAG-Systeme zu bewerten und festzustellen, wann diese wirklich produktionsreif sind.

Production-Ready AI LLMs evaluation RAG

RESEARCHDEV.to AI·4/19/2026

Evaluation of Retrieval-Augmented Generation: A Survey

Diese Studie bewertet die Retrieval-Augmented Generation (RAG) und analysiert ihren aktuellen Stand, ihre Architekturen und Leistungsmetriken. Sie bietet einen umfassenden Überblick über bestehende RAG-Techniken und deren Anwendungen.

Survey evaluation RAG NLP

RESEARCHDEV.to AI·4/14/2026

Don't forget, there is more than forgetting: new metrics for Continual Learning

Dieser Inhalt führt neuartige Metriken für Continual Learning ein und erweitert die Evaluierung über die bloße Verhinderung katastrophalen Vergessens hinaus. Er schlägt eine umfassendere Sichtweise zur Messung der Leistung von KI-Modellen in sequenziellen Lernszenarien vor.

AI metrics evaluation machine learning Catastrophic Forgetting

ARTICLEDEV.to AI·vor 18T

Intercom: Outlines Key Factors Beyond Performance for Evaluating AI Customer Service Agents

Intercom veröffentlichte einen Artikel, der entscheidende Faktoren jenseits der reinen Leistung zur Bewertung von KI-Kundendienstagenten darlegt. Der Beitrag betont Integration, Anpassung und langfristigen Wert als wesentliche Kennzahlen für die Auswahl von KI-Lösungen.

evaluation customer service business strategy AI

RESEARCHarXiv CS.CL·5/5/2026

CLEAR: Revealing How Noise and Ambiguity Degrade Reliability in LLMs for Medicine

Das CLEAR-Framework wird eingeführt, um zu bewerten, wie Ambiguität und Unsicherheit die Zuverlässigkeit medizinischer großer Sprachmodelle (LLMs) beeinflussen, jenseits vereinfachter Bewertungs-Benchmarks. Es variiert systematisch Antwortoptionen und deren semantische Formulierung, was zeigt, dass eine erhöhte Anzahl plausibler Antworten die LLM-Leistung beeinträchtigt und die Vorsicht bei unsicherer Abstinenzformulierung abnimmt.

Ambiguity LLMs evaluation Reliability

RESEARCHarXiv CS.CL·5/1/2026

BatteryPass-12K: The First Dataset for the Novel Digital Battery Passport Conformance Task

Dieses Papier stellt BatteryPass-12K vor, den ersten öffentlichen Datensatz für die neuartige Aufgabe der Konformitätsklassifizierung digitaler Batterie-Pässe (DBP), um einen kritischen Bedarf vor den neuen EU-Vorschriften zu decken. Es bewertet 22 Sprachmodelle und zeigt, dass "denkende Modelle" wie GPT-5.4 die beste Leistung erzielen und Few-Shot-Beispiele die Ergebnisse erheblich verbessern.

evaluation Benchmarking Natural Language Processing datasets

RESEARCHarXiv CS.CL·4/16/2026

KMMMU: Evaluation of Massive Multi-discipline Multimodal Understanding in Korean Language and Context

KMMMU ist ein neuer, nativer koreanischer Benchmark zur Bewertung des multimodalen Verständnisses in koreanischen kulturellen und institutionellen Kontexten, der 3.466 Fragen aus nativen Prüfungen enthält. Die Studie zeigt, dass aktuelle KI-Modelle auf dem gesamten Datensatz nur 42,05 % Genauigkeit erreichen, mit erheblichen Fehlern bei kulturell und fachspezifisch relevanten Problemen.

language models multimodal AI evaluation Benchmarking

RESEARCHarXiv CS.CL·vor 29T

IntentGrasp: A Comprehensive Benchmark for Intent Understanding

IntentGrasp ist ein umfassender neuer Benchmark zur Bewertung der Fähigkeit von LLMs, Absichten zu verstehen, abgeleitet aus 49 hochwertigen Korpora. Umfassende Evaluationen an 20 LLMs zeigten unzureichende Leistungen, mit Werten unter 60% im All Set und 25% im Gem Set.

evaluation Benchmarking IntentGrasp intent understanding

RESEARCHarXiv CS.CL·vor 7T

lmfaoooo at SemEval-2026 Task 1: Humor Is an Audience. Preference Modeling for Constrained Humor Generation

Dieses Papier beschreibt ein System für die SemEval-2026 Aufgabe 1, die sich auf die Generierung von Humor unter expliziten Einschränkungen konzentriert. Der Ansatz verwendet eine

evaluation Natural Language Processing humor generation AI Research

RESEARCHarXiv CS.AI·vor 22T

Does Theory of Mind Improvement Really Benefit Human-AI Interactions? Empirical Findings from Interactive Evaluations

Dieses Papier stellt ein neues Paradigma zur interaktiven Bewertung von Verbesserungen der Theory of Mind (ToM) in großen Sprachmodellen (LLMs) für Mensch-KI-Interaktionen vor. Empirische Ergebnisse aus realen Datensätzen und einer Benutzerstudie zeigen, dass ToM-Verbesserungen bei statischen Benchmarks nicht immer zu Vorteilen in dynamischen Mensch-KI-Interaktionen führen.

LLMs evaluation human-AI interaction empirical study

RESEARCHarXiv CS.CL·vor 25T

When Evidence Conflicts: Uncertainty and Order Effects in Retrieval-Augmented Biomedical Question Answering

Diese Forschung bewertet große Sprachmodelle (LLMs) bei der Beantwortung biomedizinischer Fragen, wobei deren Zuverlässigkeit bei widersprüchlichen oder unvollständigen Beweisen thematisiert wird. Es zeigt sich, dass die Genauigkeit von LLMs erheblich sinkt und Vorhersagen sich ändern, wenn die Reihenfolge korrekter und widersprüchlicher Dokumente vertauscht wird, was Probleme mit Reihenfolgeeffekten und die Notwendigkeit einer konfliktbewussten Enthaltung hervorhebt.

LLMs evaluation Reliability Biomedical AI

RESEARCHarXiv CS.LG·vor 7T

On Effectiveness and Efficiency of Agentic Tool-calling and RL Training

Dieses Papier untersucht das Tool-Calling in großen Sprachmodell-Agenten (LLMs) hinsichtlich Effektivität und Effizienz. Es zeigt, dass Evaluationspipelines sensibel auf Implementierungsentscheidungen reagieren und identifiziert Rechenverschwendung beim Reinforcement Learning-Training.

LLMs evaluation reinforcement learning tool-calling

RESEARCHarXiv CS.CL·vor 14T

Faithful or Fabricated? A Causal Framework for Rationalization Bias in LLM Judges

Dieser Artikel stellt einen kausalen Rahmen zur Untersuchung von Rationalisierungsverzerrungen bei LLMs vor, die als automatische Juroren für Zusammenfassungs- und Dialogbewertungen eingesetzt werden. Er untersucht, ob die Bewertungen und Erklärungen von LLMs stabil bleiben, wenn nicht-evidente Hinweise gestört werden, und schlägt Hinweisinterventionen und Ankerkennzahlen vor.

LLMs evaluation AI rationalization

RESEARCHarXiv CS.CL·vor 8T

Protocol for evaluating ChatGPT in biomedical association generation and verification using a RAG-enabled, cross-model majority voting workflow

Dieses Protokoll bewertet die Fähigkeit von ChatGPT, krankheitszentrierte biomedizinische Assoziationen zu generieren und zu verifizieren, unter Verwendung biomedizinischer Ontologien und Literatur. Es umfasst eine Selbstkonsistenzstrategie und einen RAG-fähigen Workflow, der von Open-Source-LLMs unterstützt wird, um exakte Übereinstimmungsbeschränkungen zu adressieren und Halluzinationen aufzudecken.

LLMs evaluation ChatGPT RAG

RESEARCHarXiv CS.CL·vor 8T

CanLegalRAGBench: Evaluating Retrieval-Augmented Generation on Canadian Case Law

Diese Arbeit stellt CanLegalRAGBench vor, einen neuen kanadischen Rechts-QA-Benchmark zur Bewertung von Retrieval-Augmented Generation (RAG)-Systemen mit realistischen Anfragen und von Experten annotierten Fallrecht-Antworten. Sie zeigt die Sensibilität der Retrieval-Leistung, die Wettbewerbsfähigkeit von Open-Source-Embedding-Modellen sowie die Grenzen automatischer Bewertungen und LLM-Halluzinationen in generierten Antworten auf.

Retrieval Augmented Generation LLMs evaluation Legal AI