POLARIS: Guiding Small Models to Write Long Stories
POLARIS é uma nova receita GRPO que utiliza um LLM como juiz e injeção de referência humana para treinar modelos pequenos. Ele melhora significativamente a capacidade desses modelos de escrever histórias longas e de alta qualidade, tornando um modelo de 9B competitivo com modelos de fronteira muito maiores.