RESEARCHarXiv CS.LG·hace 19d
GROW: Aligning GRPO with State-Action Modeling for Open-World VLM Agents
Este artículo presenta GROW, un marco de RL para agentes VLM en tareas de mundo abierto, superando las limitaciones de los métodos basados en SFT. Propone un enfoque novedoso para GRPO, descomponiendo trayectorias en muestras de estado-acción en lugar de entidades completas.
30