RESEARCH30

GROW: Aligning GRPO with State-Action Modeling for Open-World VLM Agents

arXiv CS.LG·21 de mayo de 2026

Este artículo presenta GROW, un marco de RL para agentes VLM en tareas de mundo abierto, superando las limitaciones de los métodos basados en SFT. Propone un enfoque novedoso para GRPO, descomponiendo trayectorias en muestras de estado-acción en lugar de entidades completas.

VLM Agents Policy optimization Open-world AI reinforcement learning machine learning

Leer original ↗