RESEARCHQwen Blog·27/7/2025
GSPO: Towards Scalable Reinforcement Learning for Language Models
O Reinforcement Learning é crucial para escalar modelos de linguagem, mas algoritmos existentes sofrem de instabilidade e colapso do modelo. Para resolver isso e permitir o escalonamento bem-sucedido, propõe-se o algoritmo Group Sequence Policy Optimization (GSPO).
27