RESEARCHarXiv CS.LG·06/05/2026
Generate, Filter, Control, Replay: A Comprehensive Survey of Rollout Strategies for LLM Reinforcement Learning
Cette étude propose une vue agnostique de l'optimiseur des stratégies de déploiement (rollout) pour le post-entraînement des LLM de raisonnement basés sur le RL. Elle formalise les pipelines de déploiement avec une notation unifiée et introduit la taxonomie du cycle de vie Generate-Filter-Control-Replay (GFCR), décomposant les pipelines en quatre étapes modulaires.
27