RESEARCH28

Exploration and Exploitation Errors Are Measurable for Language Model Agents

arXiv CS.AI·16 de abril de 2026

Esta pesquisa apresenta um método para quantificar sistematicamente erros de exploração e explotação em agentes de Modelos de Linguagem (LM), superando o desafio de avaliação sem acesso às políticas internas. O estudo propõe ambientes controláveis e uma métrica agnóstica à política para medir esses erros, revelando falhas até em LMs de ponta.

language models reinforcement learning Evaluation Metrics AI Agents

Ler original ↗