RESEARCH27

Co-Evolving LLM Decision and Skill Bank Agents for Long-Horizon Tasks

arXiv CS.AI·25 avril 2026

Cet article présente COSPLAY, un cadre de co-évolution visant à améliorer la prise de décision des LLM dans des environnements interactifs à long terme. Il permet à un agent LLM de récupérer des compétences d'une banque de compétences apprenable, tandis qu'un pipeline d'agent découvre et retient de nouvelles compétences à partir de ses propres expériences non étiquetées.

LLMs reinforcement learning Skill Discovery AI agents

Lire l'original ↗