RESEARCH27

GSPO: Towards Scalable Reinforcement Learning for Language Models

Qwen Blog·27 de julho de 2025

O Reinforcement Learning é crucial para escalar modelos de linguagem, mas algoritmos existentes sofrem de instabilidade e colapso do modelo. Para resolver isso e permitir o escalonamento bem-sucedido, propõe-se o algoritmo Group Sequence Policy Optimization (GSPO).

scalabilityPolicy Optimizationlanguage modelsReinforcement LearningGSPOModel Collapse

Ler original ↗