GSPO — artículos, noticias e investigación de IA

RESEARCHQwen Blog·27/7/2025

GSPO: Towards Scalable Reinforcement Learning for Language Models

O Reinforcement Learning é crucial para escalar modelos de linguagem, mas algoritmos existentes sofrem de instabilidade e colapso do modelo. Para resolver isso e permitir o escalonamento bem-sucedido, propõe-se o algoritmo Group Sequence Policy Optimization (GSPO).

scalability Policy optimization language models reinforcement learning