RESEARCHarXiv CS.CL·hace 5d
POLARIS: Guiding Small Models to Write Long Stories
POLARIS es una nueva receta GRPO que emplea un LLM como juez y la inyección de referencias humanas para entrenar modelos pequeños. Mejora significativamente su capacidad para escribir historias largas y de alta calidad, haciendo que un modelo de 9B sea competitivo con modelos mucho más grandes.
28