heapsort
RESEARCH27

Generate, Filter, Control, Replay: A Comprehensive Survey of Rollout Strategies for LLM Reinforcement Learning

arXiv CS.LG·6. Mai 2026

Diese Übersicht bietet eine optimierer-agnostische Sicht auf Rollout-Strategien für das RL-basierte Nachtraining von Reasoning-LLMs. Sie formalisiert Rollout-Pipelines mit einer einheitlichen Notation und führt die Generate-Filter-Control-Replay (GFCR) Lebenszyklus-Taxonomie ein, die Pipelines in vier modulare Phasen zerlegt.

Original lesen