RESEARCHarXiv CS.LG·6/5/2026
Generate, Filter, Control, Replay: A Comprehensive Survey of Rollout Strategies for LLM Reinforcement Learning
Esta encuesta proporciona una visión independiente del optimizador de las estrategias de rollout para el post-entrenamiento de LLM de razonamiento basados en RL. Formaliza los pipelines de rollout con una notación unificada e introduce la taxonomía del ciclo de vida Generate-Filter-Control-Replay (GFCR), descomponiendo los pipelines en cuatro etapas modulares.
27