heapsort
RESEARCH28

POLARIS: Guiding Small Models to Write Long Stories

arXiv CS.CL·4 juin 2026

POLARIS est une nouvelle recette GRPO utilisant un LLM juge et l'injection de références humaines pour entraîner de petits modèles. Elle améliore considérablement leur capacité à écrire des histoires longues et de haute qualité, rendant un modèle de 9B compétitif avec des modèles frontières bien plus grands.

Lire l'original