← heapsort-ai

Evaluation Metrics

7 items

DOCDEV.to AI·17/04/2026

How to Build a Trust Scoring System for AI Agents (That Actually Works)

Ce contenu aborde le problème critique de la confiance non vérifiée chez les agents IA et propose un système de notation de confiance à trois composants. Le système vérifie les sorties par rapport à la vérité terrain, suit les performances dans le temps et compare la confiance déclarée à l'exactitude réelle pour pénaliser l'excès de confiance.

28
RESEARCHarXiv CS.AI·16/04/2026

Exploration and Exploitation Errors Are Measurable for Language Model Agents

Cette recherche présente une méthode pour quantifier systématiquement les erreurs d'exploration et d'exploitation chez les agents de Modèles de Langage (LM), répondant au défi de l'évaluation sans accès aux politiques internes. Elle propose des environnements contrôlables et une métrique agnostique à la politique pour mesurer ces erreurs, révélant des lacunes même chez les LMs de pointe.

28
RESEARCHarXiv CS.CL·il y a 21j

SKG-Eval: Stateful Evaluation of Multi-Turn Dialogue via Incremental Semantic Knowledge Graphs

SKG-Eval s'attaque au défi de l'évaluation des systèmes de dialogue multi-tour en modélisant le dialogue comme un Graphe de Connaissance Sémantique (SKG) évolutif. Ce cadre met à jour le graphe de manière incrémentale par l'extraction de triplets structurés pour détecter des problèmes à long terme tels que la contradiction et l'incohérence, offrant une évaluation améliorée au-delà des représentations isolées par tour.

27
RESEARCHarXiv CS.CL·14/04/2026

Spoiler Alert: Narrative Forecasting as a Metric for Tension in LLM Storytelling

Cette recherche introduit la métrique '100-Endings' pour remédier à l'incapacité des LLM à générer des histoires captivantes et à reconnaître leurs propres lacunes. La métrique mesure la tension narrative en prédisant 100 fins phrase par phrase, s'avérant plus efficace que les rubriques actuelles pour distinguer les récits humains de haute qualité des productions d'IA.

27
RESEARCHarXiv CS.AI·01/05/2026

When Your LLM Reaches End-of-Life: A Framework for Confident Model Migration in Production Systems

Cette recherche présente un cadre pour la migration des systèmes LLM en production lorsque leurs modèles sous-jacents atteignent la fin de vie ou nécessitent un remplacement. Elle utilise une approche statistique bayésienne pour calibrer les métriques d'évaluation automatisées par rapport aux jugements humains, permettant une comparaison fiable des modèles avec des données manuelles limitées.

27
RESEARCHarXiv CS.LG·09/04/2026

RAGEN-2: Reasoning Collapse in Agentic RL

Este estudo introduz o conceito de 'colapso de template', uma falha em agentes LLM de múltiplas interações onde a resposta se torna agnóstica à entrada, mesmo com entropia estável. Propõe a Informação Mútua (MI) como uma métrica superior à entropia para diagnosticar a qualidade do raciocínio, correlacionando-se mais fortemente com o desempenho final.

27