RESEARCHarXiv CS.LG·19d atrás
GROW: Aligning GRPO with State-Action Modeling for Open-World VLM Agents
Este artigo introduz GROW, uma estrutura de RL para agentes VLM em tarefas de mundo aberto, superando as limitações de métodos baseados em SFT. Ele propõe uma nova abordagem para o GRPO, decompondo trajetórias em amostras de estado-ação em vez de entidades completas.
30