RESEARCH30
GROW: Aligning GRPO with State-Action Modeling for Open-World VLM Agents
arXiv CS.LG·21. Mai 2026
Dieses Papier stellt GROW vor, ein RL-Framework für VLM-Agenten in Open-World-Aufgaben, das die Grenzen bestehender SFT-basierter Methoden überwindet. Es schlägt einen neuartigen Ansatz für GRPO vor, indem Trajektorien in Zustands-Aktions-Proben statt vollständiger Einheiten zerlegt werden.
Original lesen ↗