heapsort
RESEARCH30

GROW: Aligning GRPO with State-Action Modeling for Open-World VLM Agents

arXiv CS.LG·21 de maio de 2026

Este artigo introduz GROW, uma estrutura de RL para agentes VLM em tarefas de mundo aberto, superando as limitações de métodos baseados em SFT. Ele propõe uma nova abordagem para o GRPO, decompondo trajetórias em amostras de estado-ação em vez de entidades completas.

Ler original