RESEARCH28
POLARIS: Guiding Small Models to Write Long Stories
arXiv CS.CL·4 de junho de 2026
POLARIS é uma nova receita GRPO que utiliza um LLM como juiz e injeção de referência humana para treinar modelos pequenos. Ele melhora significativamente a capacidade desses modelos de escrever histórias longas e de alta qualidade, tornando um modelo de 9B competitivo com modelos de fronteira muito maiores.
Ler original ↗