RESEARCH30
GROW: Aligning GRPO with State-Action Modeling for Open-World VLM Agents
arXiv CS.LG·21 mai 2026
Cet article introduit GROW, un cadre de RL pour les agents VLM dans les tâches en monde ouvert, dépassant les limites des méthodes basées sur SFT. Il propose une nouvelle approche pour le GRPO, décomposant les trajectoires en échantillons état-action plutôt qu'en entités complètes.
Lire l'original ↗