← heapsort-ai

Rollout Strategies

1 items

RESEARCHarXiv CS.LG·06/05/2026

Generate, Filter, Control, Replay: A Comprehensive Survey of Rollout Strategies for LLM Reinforcement Learning

Cette étude propose une vue agnostique de l'optimiseur des stratégies de déploiement (rollout) pour le post-entraînement des LLM de raisonnement basés sur le RL. Elle formalise les pipelines de déploiement avec une notation unifiée et introduit la taxonomie du cycle de vie Generate-Filter-Control-Replay (GFCR), décomposant les pipelines en quatre étapes modulaires.

27