RESEARCH28
POLARIS: Guiding Small Models to Write Long Stories
arXiv CS.CL·4 juin 2026
POLARIS est une nouvelle recette GRPO utilisant un LLM juge et l'injection de références humaines pour entraîner de petits modèles. Elle améliore considérablement leur capacité à écrire des histoires longues et de haute qualité, rendant un modèle de 9B compétitif avec des modèles frontières bien plus grands.
Lire l'original ↗