heapsort
RESEARCH28

POLARIS: Guiding Small Models to Write Long Stories

arXiv CS.CL·4 de junho de 2026

POLARIS é uma nova receita GRPO que utiliza um LLM como juiz e injeção de referência humana para treinar modelos pequenos. Ele melhora significativamente a capacidade desses modelos de escrever histórias longas e de alta qualidade, tornando um modelo de 9B competitivo com modelos de fronteira muito maiores.

Ler original