RESEARCHarXiv CS.LG·5/6/2026
Generate, Filter, Control, Replay: A Comprehensive Survey of Rollout Strategies for LLM Reinforcement Learning
Diese Übersicht bietet eine optimierer-agnostische Sicht auf Rollout-Strategien für das RL-basierte Nachtraining von Reasoning-LLMs. Sie formalisiert Rollout-Pipelines mit einer einheitlichen Notation und führt die Generate-Filter-Control-Replay (GFCR) Lebenszyklus-Taxonomie ein, die Pipelines in vier modulare Phasen zerlegt.
27