RESEARCH28

SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks

arXiv CS.AI·13 de abril de 2026

SPPO (Sequence-Level PPO) aborda las limitaciones del PPO estándar en tareas de razonamiento de LLMs de largo horizonte, reformulando el proceso como un problema de Bandido Contextual a Nivel de Secuencia. Este enfoque utiliza una función de valor escalar desacoplada para derivar señales de ventaja de baja varianza, mejorando la eficiencia de la muestra y la estabilidad sin la sobrecarga computacional.

LLMs reasoning tasks reinforcement learning PPO Chain-of-Thought

Leer original ↗