VLM Agents — artigos, notícias e pesquisas de IA

RESEARCHarXiv CS.LG·19d atrás

GROW: Aligning GRPO with State-Action Modeling for Open-World VLM Agents

Este artigo introduz GROW, uma estrutura de RL para agentes VLM em tarefas de mundo aberto, superando as limitações de métodos baseados em SFT. Ele propõe uma nova abordagem para o GRPO, decompondo trajetórias em amostras de estado-ação em vez de entidades completas.

VLM Agents Policy optimization Open-world AI reinforcement learning