← heapsort-ai

Rollout Strategies

1 items

RESEARCHarXiv CS.LG·5/6/2026

Generate, Filter, Control, Replay: A Comprehensive Survey of Rollout Strategies for LLM Reinforcement Learning

Diese Übersicht bietet eine optimierer-agnostische Sicht auf Rollout-Strategien für das RL-basierte Nachtraining von Reasoning-LLMs. Sie formalisiert Rollout-Pipelines mit einer einheitlichen Notation und führt die Generate-Filter-Control-Replay (GFCR) Lebenszyklus-Taxonomie ein, die Pipelines in vier modulare Phasen zerlegt.

27