Rollout Strategies — artículos, noticias e investigación de IA

RESEARCHarXiv CS.LG·6/5/2026

Generate, Filter, Control, Replay: A Comprehensive Survey of Rollout Strategies for LLM Reinforcement Learning

Esta encuesta proporciona una visión independiente del optimizador de las estrategias de rollout para el post-entrenamiento de LLM de razonamiento basados en RL. Formaliza los pipelines de rollout con una notación unificada e introduce la taxonomía del ciclo de vida Generate-Filter-Control-Replay (GFCR), descomponiendo los pipelines en cuatro etapas modulares.

Rollout Strategies reinforcement learning machine learning AI Research