← heapsort-ai

Rollout Strategies

1 items

RESEARCHarXiv CS.LG·06/05/2026

Generate, Filter, Control, Replay: A Comprehensive Survey of Rollout Strategies for LLM Reinforcement Learning

Esta pesquisa oferece uma visão independente do otimizador sobre estratégias de rollout para pós-treinamento de LLMs de raciocínio baseados em RL. Ela formaliza pipelines de rollout com notação unificada e introduz a taxonomia de ciclo de vida Generate-Filter-Control-Replay (GFCR), decompondo pipelines em quatro estágios modulares.

27