RESEARCH27

Multi-Rollout On-Policy Distillation via Peer Successes and Failures

arXiv CS.LG·14 de mayo de 2026

El artículo presenta la Destilación On-Policy Multi-Rollout (MOPD), un marco que utiliza el grupo de despliegues locales de un estudiante para construir señales de profesor más informativas para el post-entrenamiento de LLMs. MOPD condiciona al profesor tanto en despliegues exitosos como fallidos, utilizando los éxitos para patrones de razonamiento válidos y los fallos para evitar errores plausibles.

distillation reinforcement learning AI Training machine learning large language models

Leer original ↗