POLARIS: Guiding Small Models to Write Long Stories
POLARIS ist ein neues GRPO-Rezept, das einen LLM-Richter für Belohnungen und die Injektion menschlicher Referenzen verwendet, um kleine Modelle zu trainieren. Es verbessert signifikant ihre Fähigkeit, lange, qualitativ hochwertige Geschichten zu schreiben, wodurch ein 9B-Modell mit viel größeren Frontier-Modellen konkurrenzfähig wird.