RESEARCH30

GROW: Aligning GRPO with State-Action Modeling for Open-World VLM Agents

arXiv CS.LG·21 mai 2026

Cet article introduit GROW, un cadre de RL pour les agents VLM dans les tâches en monde ouvert, dépassant les limites des méthodes basées sur SFT. Il propose une nouvelle approche pour le GRPO, décomposant les trajectoires en échantillons état-action plutôt qu'en entités complètes.

VLM Agents Policy optimization Open-world AI reinforcement learning machine learning

Lire l'original ↗