RESEARCH28
Exploration and Exploitation Errors Are Measurable for Language Model Agents
arXiv CS.AI·16 avril 2026
Cette recherche présente une méthode pour quantifier systématiquement les erreurs d'exploration et d'exploitation chez les agents de Modèles de Langage (LM), répondant au défi de l'évaluation sans accès aux politiques internes. Elle propose des environnements contrôlables et une métrique agnostique à la politique pour mesurer ces erreurs, révélant des lacunes même chez les LMs de pointe.
Lire l'original ↗