← heapsort-ai

Rollout Strategies

1 items

RESEARCHarXiv CS.LG·6/5/2026

Generate, Filter, Control, Replay: A Comprehensive Survey of Rollout Strategies for LLM Reinforcement Learning

Esta encuesta proporciona una visión independiente del optimizador de las estrategias de rollout para el post-entrenamiento de LLM de razonamiento basados en RL. Formaliza los pipelines de rollout con una notación unificada e introduce la taxonomía del ciclo de vida Generate-Filter-Control-Replay (GFCR), descomponiendo los pipelines en cuatro etapas modulares.

27