← heapsort-ai

Evaluation Metrics

7 items

DOCDEV.to AI·4/17/2026

How to Build a Trust Scoring System for AI Agents (That Actually Works)

Dieser Inhalt beleuchtet das kritische Problem unüberprüfter Zuversicht bei KI-Agenten und schlägt ein dreikomponentiges Vertrauensbewertungssystem vor. Das System überprüft Ausgaben anhand von Referenzdaten, verfolgt die Leistung über die Zeit und vergleicht die angegebene Zuversicht mit der tatsächlichen Genauigkeit, um überzogene Zuversicht zu sanktionieren.

28
RESEARCHarXiv CS.AI·4/16/2026

Exploration and Exploitation Errors Are Measurable for Language Model Agents

Diese Forschung stellt eine Methode zur systematischen Quantifizierung von Explorations- und Exploitationsfehlern in Sprachmodell-Agenten (LM) vor, die die Herausforderung der Evaluierung ohne Zugang zu internen Richtlinien angeht. Sie schlägt kontrollierbare Umgebungen und eine strategieunabhängige Metrik zur Messung dieser Fehler vor, wodurch Mängel selbst in hochmodernen LMs aufgedeckt werden.

28
RESEARCHarXiv CS.CL·vor 21T

SKG-Eval: Stateful Evaluation of Multi-Turn Dialogue via Incremental Semantic Knowledge Graphs

SKG-Eval befasst sich mit der Herausforderung der Evaluierung von Multi-Turn-Dialogsystemen, indem es den Dialog als einen sich entwickelnden Semantischen Wissensgraphen (SKG) modelliert. Dieses Framework aktualisiert den Graphen inkrementell durch strukturierte Tripel-Extraktion, um weitreichende Probleme wie Widersprüche und Inkonsistenzen zu erkennen, und bietet eine verbesserte Evaluierung jenseits von turn-isolierten Repräsentationen.

27
RESEARCHarXiv CS.CL·4/14/2026

Spoiler Alert: Narrative Forecasting as a Metric for Tension in LLM Storytelling

Diese Forschung führt die „100-Endings-Metrik“ ein, um das Versagen von LLMs beim Generieren fesselnder Geschichten und beim Erkennen ihrer eigenen Qualitätsprobleme zu adressieren. Die Metrik misst die narrative Spannung durch satzweise Vorhersage von Story-Enden und erweist sich als effektiver als aktuelle Rubriken bei der Unterscheidung hochwertiger menschlicher Erzählungen von KI-Outputs.

27
RESEARCHarXiv CS.AI·5/1/2026

When Your LLM Reaches End-of-Life: A Framework for Confident Model Migration in Production Systems

Diese Forschung stellt ein Framework für die Migration von Produktions-LLM-Systemen vor, wenn deren zugrunde liegende Modelle das Ende ihrer Lebensdauer erreichen oder ersetzt werden müssen. Es verwendet einen Bayes'schen statistischen Ansatz zur Kalibrierung automatisierter Bewertungsmetriken anhand menschlicher Urteile, um einen zuverlässigen Modellvergleich auch mit begrenzten manuellen Bewertungsdaten zu ermöglichen.

27
RESEARCHarXiv CS.LG·4/9/2026

RAGEN-2: Reasoning Collapse in Agentic RL

Este estudo introduz o conceito de 'colapso de template', uma falha em agentes LLM de múltiplas interações onde a resposta se torna agnóstica à entrada, mesmo com entropia estável. Propõe a Informação Mútua (MI) como uma métrica superior à entropia para diagnosticar a qualidade do raciocínio, correlacionando-se mais fortemente com o desempenho final.

27