RESEARCH28

Exploration and Exploitation Errors Are Measurable for Language Model Agents

arXiv CS.AI·16 de abril de 2026

Esta investigación presenta un método para cuantificar sistemáticamente los errores de exploración y explotación en agentes de Modelos de Lenguaje (LM), abordando el desafío de la evaluación sin acceso a las políticas internas. Propone entornos controlables y una métrica agnóstica a la política para medir estos errores, revelando fallos incluso en los LM de vanguardia.

language models reinforcement learning Evaluation Metrics AI agents

Leer original ↗