← heapsort-ai

evaluation

53 items

ARTICLEDEV.to AI·vor 23T

AI Agent Evaluation in 2026: Beyond the Benchmark Trap

Der Inhalt hebt die erhebliche Lücke zwischen hohen KI-Agenten-Scores bei Benchmarks und deren schlechter Leistung in der Produktion hervor, argumentierend, dass aktuelle Benchmarks enge Fähigkeiten testen und kritische reale Herausforderungen übersehen. Diese Diskrepanz wird als die entscheidende Herausforderung für die Bewertung von KI-Agenten im Jahr 2026 identifiziert.

27
ARTICLEDEV.to AI·4/14/2026

The 5 Levels of RAG Maturity: How to Know When Your RAG Is Actually Production-Ready

Dieser Artikel befasst sich mit der häufigen Herausforderung der Evaluierung von RAG-Systemen (Retrieval-Augmented Generation) und zeigt auf, dass viele Projekte mangels einer angemessenen Evaluierung über erste Demos nicht hinauskommen. Er stellt ein 0- bis 5-stufiges Reifegradmodell vor, das Organisationen helfen soll, ihre RAG-Systeme zu bewerten und festzustellen, wann diese wirklich produktionsreif sind.

27
RESEARCHarXiv CS.CL·5/5/2026

CLEAR: Revealing How Noise and Ambiguity Degrade Reliability in LLMs for Medicine

Das CLEAR-Framework wird eingeführt, um zu bewerten, wie Ambiguität und Unsicherheit die Zuverlässigkeit medizinischer großer Sprachmodelle (LLMs) beeinflussen, jenseits vereinfachter Bewertungs-Benchmarks. Es variiert systematisch Antwortoptionen und deren semantische Formulierung, was zeigt, dass eine erhöhte Anzahl plausibler Antworten die LLM-Leistung beeinträchtigt und die Vorsicht bei unsicherer Abstinenzformulierung abnimmt.

27
RESEARCHarXiv CS.CL·5/1/2026

BatteryPass-12K: The First Dataset for the Novel Digital Battery Passport Conformance Task

Dieses Papier stellt BatteryPass-12K vor, den ersten öffentlichen Datensatz für die neuartige Aufgabe der Konformitätsklassifizierung digitaler Batterie-Pässe (DBP), um einen kritischen Bedarf vor den neuen EU-Vorschriften zu decken. Es bewertet 22 Sprachmodelle und zeigt, dass "denkende Modelle" wie GPT-5.4 die beste Leistung erzielen und Few-Shot-Beispiele die Ergebnisse erheblich verbessern.

27
RESEARCHarXiv CS.CL·4/16/2026

KMMMU: Evaluation of Massive Multi-discipline Multimodal Understanding in Korean Language and Context

KMMMU ist ein neuer, nativer koreanischer Benchmark zur Bewertung des multimodalen Verständnisses in koreanischen kulturellen und institutionellen Kontexten, der 3.466 Fragen aus nativen Prüfungen enthält. Die Studie zeigt, dass aktuelle KI-Modelle auf dem gesamten Datensatz nur 42,05 % Genauigkeit erreichen, mit erheblichen Fehlern bei kulturell und fachspezifisch relevanten Problemen.

27
RESEARCHarXiv CS.AI·vor 22T

Does Theory of Mind Improvement Really Benefit Human-AI Interactions? Empirical Findings from Interactive Evaluations

Dieses Papier stellt ein neues Paradigma zur interaktiven Bewertung von Verbesserungen der Theory of Mind (ToM) in großen Sprachmodellen (LLMs) für Mensch-KI-Interaktionen vor. Empirische Ergebnisse aus realen Datensätzen und einer Benutzerstudie zeigen, dass ToM-Verbesserungen bei statischen Benchmarks nicht immer zu Vorteilen in dynamischen Mensch-KI-Interaktionen führen.

27
RESEARCHarXiv CS.CL·vor 25T

When Evidence Conflicts: Uncertainty and Order Effects in Retrieval-Augmented Biomedical Question Answering

Diese Forschung bewertet große Sprachmodelle (LLMs) bei der Beantwortung biomedizinischer Fragen, wobei deren Zuverlässigkeit bei widersprüchlichen oder unvollständigen Beweisen thematisiert wird. Es zeigt sich, dass die Genauigkeit von LLMs erheblich sinkt und Vorhersagen sich ändern, wenn die Reihenfolge korrekter und widersprüchlicher Dokumente vertauscht wird, was Probleme mit Reihenfolgeeffekten und die Notwendigkeit einer konfliktbewussten Enthaltung hervorhebt.

27
RESEARCHarXiv CS.CL·vor 14T

Faithful or Fabricated? A Causal Framework for Rationalization Bias in LLM Judges

Dieser Artikel stellt einen kausalen Rahmen zur Untersuchung von Rationalisierungsverzerrungen bei LLMs vor, die als automatische Juroren für Zusammenfassungs- und Dialogbewertungen eingesetzt werden. Er untersucht, ob die Bewertungen und Erklärungen von LLMs stabil bleiben, wenn nicht-evidente Hinweise gestört werden, und schlägt Hinweisinterventionen und Ankerkennzahlen vor.

27
RESEARCHarXiv CS.CL·vor 8T

Protocol for evaluating ChatGPT in biomedical association generation and verification using a RAG-enabled, cross-model majority voting workflow

Dieses Protokoll bewertet die Fähigkeit von ChatGPT, krankheitszentrierte biomedizinische Assoziationen zu generieren und zu verifizieren, unter Verwendung biomedizinischer Ontologien und Literatur. Es umfasst eine Selbstkonsistenzstrategie und einen RAG-fähigen Workflow, der von Open-Source-LLMs unterstützt wird, um exakte Übereinstimmungsbeschränkungen zu adressieren und Halluzinationen aufzudecken.

27
RESEARCHarXiv CS.CL·vor 8T

CanLegalRAGBench: Evaluating Retrieval-Augmented Generation on Canadian Case Law

Diese Arbeit stellt CanLegalRAGBench vor, einen neuen kanadischen Rechts-QA-Benchmark zur Bewertung von Retrieval-Augmented Generation (RAG)-Systemen mit realistischen Anfragen und von Experten annotierten Fallrecht-Antworten. Sie zeigt die Sensibilität der Retrieval-Leistung, die Wettbewerbsfähigkeit von Open-Source-Embedding-Modellen sowie die Grenzen automatischer Bewertungen und LLM-Halluzinationen in generierten Antworten auf.

27