RESEARCH30

GROW: Aligning GRPO with State-Action Modeling for Open-World VLM Agents

arXiv CS.LG·21. Mai 2026

Dieses Papier stellt GROW vor, ein RL-Framework für VLM-Agenten in Open-World-Aufgaben, das die Grenzen bestehender SFT-basierter Methoden überwindet. Es schlägt einen neuartigen Ansatz für GRPO vor, indem Trajektorien in Zustands-Aktions-Proben statt vollständiger Einheiten zerlegt werden.

VLM Agents Policy optimization Open-world AI reinforcement learning machine learning

Original lesen ↗