RESEARCH27

StaRPO: Stability-Augmented Reinforcement Policy Optimization

arXiv CS.AI·13 de abril de 2026

StaRPO es un nuevo marco de aprendizaje por refuerzo diseñado para mejorar la consistencia lógica de los grandes modelos de lenguaje en tareas de razonamiento complejas. Incorpora explícitamente métricas de estabilidad, como la Función de Autocorrelación y la Eficiencia de la Ruta, para evaluar la coherencia local y la direccionalidad global del proceso de razonamiento.

Policy optimization LLMs reinforcement learning Reasoning large language models

Leer original ↗