RESEARCH30
GROW: Aligning GRPO with State-Action Modeling for Open-World VLM Agents
arXiv CS.LG·21 de mayo de 2026
Este artículo presenta GROW, un marco de RL para agentes VLM en tareas de mundo abierto, superando las limitaciones de los métodos basados en SFT. Propone un enfoque novedoso para GRPO, descomponiendo trayectorias en muestras de estado-acción en lugar de entidades completas.
Leer original ↗