RESEARCH27
Multi-Rollout On-Policy Distillation via Peer Successes and Failures
arXiv CS.LG·14 de mayo de 2026
El artículo presenta la Destilación On-Policy Multi-Rollout (MOPD), un marco que utiliza el grupo de despliegues locales de un estudiante para construir señales de profesor más informativas para el post-entrenamiento de LLMs. MOPD condiciona al profesor tanto en despliegues exitosos como fallidos, utilizando los éxitos para patrones de razonamiento válidos y los fallos para evitar errores plausibles.
Leer original ↗