RESEARCH27
GSPO: Towards Scalable Reinforcement Learning for Language Models
Qwen Blog·27 de julho de 2025
O Reinforcement Learning é crucial para escalar modelos de linguagem, mas algoritmos existentes sofrem de instabilidade e colapso do modelo. Para resolver isso e permitir o escalonamento bem-sucedido, propõe-se o algoritmo Group Sequence Policy Optimization (GSPO).
scalabilityPolicy Optimizationlanguage modelsReinforcement LearningGSPOModel Collapse
Ler original ↗