heapsort
RESEARCH28

POLARIS: Guiding Small Models to Write Long Stories

arXiv CS.CL·4 de junio de 2026

POLARIS es una nueva receta GRPO que emplea un LLM como juez y la inyección de referencias humanas para entrenar modelos pequeños. Mejora significativamente su capacidad para escribir historias largas y de alta calidad, haciendo que un modelo de 9B sea competitivo con modelos mucho más grandes.

Leer original