RESEARCH28

Exploration and Exploitation Errors Are Measurable for Language Model Agents

arXiv CS.AI·16 avril 2026

Cette recherche présente une méthode pour quantifier systématiquement les erreurs d'exploration et d'exploitation chez les agents de Modèles de Langage (LM), répondant au défi de l'évaluation sans accès aux politiques internes. Elle propose des environnements contrôlables et une métrique agnostique à la politique pour mesurer ces erreurs, révélant des lacunes même chez les LMs de pointe.

language models reinforcement learning Evaluation Metrics AI agents

Lire l'original ↗