heapsort
RESEARCH28

Exploration and Exploitation Errors Are Measurable for Language Model Agents

arXiv CS.AI·16 de abril de 2026

Esta investigación presenta un método para cuantificar sistemáticamente los errores de exploración y explotación en agentes de Modelos de Lenguaje (LM), abordando el desafío de la evaluación sin acceso a las políticas internas. Propone entornos controlables y una métrica agnóstica a la política para medir estos errores, revelando fallos incluso en los LM de vanguardia.

Leer original