RESEARCH27
Multi-Rollout On-Policy Distillation via Peer Successes and Failures
arXiv CS.LG·14 de maio de 2026
O artigo introduz a Distilação On-Policy Multi-Rollout (MOPD), uma estrutura que utiliza o grupo de rollouts locais de um aluno para construir sinais de professor mais informativos na pós-treinamento de LLMs. MOPD considera tanto rollouts bem-sucedidos quanto falhos para fornecer evidências positivas e negativas sobre padrões de raciocínio.
Ler original ↗