Evaluation Metrics

7 items

RESEARCH↑ trendingReddit r/MachineLearning·15/04/2026

Was looking at a ICLR 2025 Oral paper and I am shocked it got oral [D]

Un utilisateur exprime son choc concernant un article oral d'ICLR 2025, critiquant sa méthodologie d'évaluation pour la génération de code SQL par des LLM. L'article aurait utilisé des métriques de langage naturel au lieu de métriques d'exécution, entraînant un taux d'erreurs positives d'environ 20%.

ICLR Evaluation Metrics Peer review SQL Generation

DOCDEV.to AI·17/04/2026

How to Build a Trust Scoring System for AI Agents (That Actually Works)

Ce contenu aborde le problème critique de la confiance non vérifiée chez les agents IA et propose un système de notation de confiance à trois composants. Le système vérifie les sorties par rapport à la vérité terrain, suit les performances dans le temps et compare la confiance déclarée à l'exactitude réelle pour pénaliser l'excès de confiance.

trustworthiness AI reliability Evaluation Metrics AI safety

RESEARCHarXiv CS.AI·16/04/2026

Exploration and Exploitation Errors Are Measurable for Language Model Agents

Cette recherche présente une méthode pour quantifier systématiquement les erreurs d'exploration et d'exploitation chez les agents de Modèles de Langage (LM), répondant au défi de l'évaluation sans accès aux politiques internes. Elle propose des environnements contrôlables et une métrique agnostique à la politique pour mesurer ces erreurs, révélant des lacunes même chez les LMs de pointe.

language models reinforcement learning Evaluation Metrics AI agents

RESEARCHarXiv CS.CL·il y a 21j

SKG-Eval: Stateful Evaluation of Multi-Turn Dialogue via Incremental Semantic Knowledge Graphs

SKG-Eval s'attaque au défi de l'évaluation des systèmes de dialogue multi-tour en modélisant le dialogue comme un Graphe de Connaissance Sémantique (SKG) évolutif. Ce cadre met à jour le graphe de manière incrémentale par l'extraction de triplets structurés pour détecter des problèmes à long terme tels que la contradiction et l'incohérence, offrant une évaluation améliorée au-delà des représentations isolées par tour.

Knowledge Graphs natural language processing Evaluation Metrics dialogue systems

RESEARCHarXiv CS.CL·14/04/2026

Spoiler Alert: Narrative Forecasting as a Metric for Tension in LLM Storytelling

Cette recherche introduit la métrique '100-Endings' pour remédier à l'incapacité des LLM à générer des histoires captivantes et à reconnaître leurs propres lacunes. La métrique mesure la tension narrative en prédisant 100 fins phrase par phrase, s'avérant plus efficace que les rubriques actuelles pour distinguer les récits humains de haute qualité des productions d'IA.

LLMs storytelling Evaluation Metrics Narrative Tension

RESEARCHarXiv CS.AI·01/05/2026

When Your LLM Reaches End-of-Life: A Framework for Confident Model Migration in Production Systems

Cette recherche présente un cadre pour la migration des systèmes LLM en production lorsque leurs modèles sous-jacents atteignent la fin de vie ou nécessitent un remplacement. Elle utilise une approche statistique bayésienne pour calibrer les métriques d'évaluation automatisées par rapport aux jugements humains, permettant une comparaison fiable des modèles avec des données manuelles limitées.

Production AI model migration Evaluation Metrics LLM

RESEARCHarXiv CS.LG·09/04/2026

RAGEN-2: Reasoning Collapse in Agentic RL

Este estudo introduz o conceito de 'colapso de template', uma falha em agentes LLM de múltiplas interações onde a resposta se torna agnóstica à entrada, mesmo com entropia estável. Propõe a Informação Mútua (MI) como uma métrica superior à entropia para diagnosticar a qualidade do raciocínio, correlacionando-se mais fortemente com o desempenho final.

LLMs reinforcement learning Reasoning Evaluation Metrics