Evaluation Metrics

7 items

RESEARCH↑ trendingReddit r/MachineLearning·4/15/2026

Was looking at a ICLR 2025 Oral paper and I am shocked it got oral [D]

Ein Nutzer zeigt sich schockiert über ein ICLR 2025 Oral Paper und kritisiert dessen Bewertungsmethodik für die SQL-Code-Generierung durch LLMs. Das Paper nutzte Berichten zufolge Metriken der natürlichen Sprache statt Ausführungsmetriken, was eine Falsch-Positiv-Rate von etwa 20% zur Folge hatte.

ICLR Evaluation Metrics Peer review SQL Generation

DOCDEV.to AI·4/17/2026

How to Build a Trust Scoring System for AI Agents (That Actually Works)

Dieser Inhalt beleuchtet das kritische Problem unüberprüfter Zuversicht bei KI-Agenten und schlägt ein dreikomponentiges Vertrauensbewertungssystem vor. Das System überprüft Ausgaben anhand von Referenzdaten, verfolgt die Leistung über die Zeit und vergleicht die angegebene Zuversicht mit der tatsächlichen Genauigkeit, um überzogene Zuversicht zu sanktionieren.

trustworthiness AI reliability Evaluation Metrics AI safety

RESEARCHarXiv CS.AI·4/16/2026

Exploration and Exploitation Errors Are Measurable for Language Model Agents

Diese Forschung stellt eine Methode zur systematischen Quantifizierung von Explorations- und Exploitationsfehlern in Sprachmodell-Agenten (LM) vor, die die Herausforderung der Evaluierung ohne Zugang zu internen Richtlinien angeht. Sie schlägt kontrollierbare Umgebungen und eine strategieunabhängige Metrik zur Messung dieser Fehler vor, wodurch Mängel selbst in hochmodernen LMs aufgedeckt werden.

language models reinforcement learning Evaluation Metrics AI agents

RESEARCHarXiv CS.CL·vor 21T

SKG-Eval: Stateful Evaluation of Multi-Turn Dialogue via Incremental Semantic Knowledge Graphs

SKG-Eval befasst sich mit der Herausforderung der Evaluierung von Multi-Turn-Dialogsystemen, indem es den Dialog als einen sich entwickelnden Semantischen Wissensgraphen (SKG) modelliert. Dieses Framework aktualisiert den Graphen inkrementell durch strukturierte Tripel-Extraktion, um weitreichende Probleme wie Widersprüche und Inkonsistenzen zu erkennen, und bietet eine verbesserte Evaluierung jenseits von turn-isolierten Repräsentationen.

Knowledge Graphs natural language processing Evaluation Metrics dialogue systems

RESEARCHarXiv CS.CL·4/14/2026

Spoiler Alert: Narrative Forecasting as a Metric for Tension in LLM Storytelling

Diese Forschung führt die „100-Endings-Metrik“ ein, um das Versagen von LLMs beim Generieren fesselnder Geschichten und beim Erkennen ihrer eigenen Qualitätsprobleme zu adressieren. Die Metrik misst die narrative Spannung durch satzweise Vorhersage von Story-Enden und erweist sich als effektiver als aktuelle Rubriken bei der Unterscheidung hochwertiger menschlicher Erzählungen von KI-Outputs.

LLMs storytelling Evaluation Metrics Narrative Tension

RESEARCHarXiv CS.AI·5/1/2026

When Your LLM Reaches End-of-Life: A Framework for Confident Model Migration in Production Systems

Diese Forschung stellt ein Framework für die Migration von Produktions-LLM-Systemen vor, wenn deren zugrunde liegende Modelle das Ende ihrer Lebensdauer erreichen oder ersetzt werden müssen. Es verwendet einen Bayes'schen statistischen Ansatz zur Kalibrierung automatisierter Bewertungsmetriken anhand menschlicher Urteile, um einen zuverlässigen Modellvergleich auch mit begrenzten manuellen Bewertungsdaten zu ermöglichen.

Production AI model migration Evaluation Metrics LLM

RESEARCHarXiv CS.LG·4/9/2026

RAGEN-2: Reasoning Collapse in Agentic RL

Este estudo introduz o conceito de 'colapso de template', uma falha em agentes LLM de múltiplas interações onde a resposta se torna agnóstica à entrada, mesmo com entropia estável. Propõe a Informação Mútua (MI) como uma métrica superior à entropia para diagnosticar a qualidade do raciocínio, correlacionando-se mais fortemente com o desempenho final.

LLMs reinforcement learning Reasoning Evaluation Metrics