heapsort
RESEARCH27

Generate, Filter, Control, Replay: A Comprehensive Survey of Rollout Strategies for LLM Reinforcement Learning

arXiv CS.LG·6 mai 2026

Cette étude propose une vue agnostique de l'optimiseur des stratégies de déploiement (rollout) pour le post-entraînement des LLM de raisonnement basés sur le RL. Elle formalise les pipelines de déploiement avec une notation unifiée et introduit la taxonomie du cycle de vie Generate-Filter-Control-Replay (GFCR), décomposant les pipelines en quatre étapes modulaires.

Lire l'original