RESEARCHarXiv CS.AI·13/04/2026
SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks
O SPPO (Sequence-Level PPO) aborda as limitações do PPO padrão em tarefas de raciocínio de LLMs de longo horizonte, reformulando o processo como um problema de Bandido Contextual de Nível de Sequência. Isso permite derivar sinais de vantagem de baixa variância com uma função de valor escalar desacoplada, melhorando a eficiência de amostra e a estabilidade sem o alto custo computacional.
28