RESEARCH27
StaRPO: Stability-Augmented Reinforcement Policy Optimization
arXiv CS.AI·13 de abril de 2026
StaRPO es un nuevo marco de aprendizaje por refuerzo diseñado para mejorar la consistencia lógica de los grandes modelos de lenguaje en tareas de razonamiento complejas. Incorpora explícitamente métricas de estabilidad, como la Función de Autocorrelación y la Eficiencia de la Ruta, para evaluar la coherencia local y la direccionalidad global del proceso de razonamiento.
Leer original ↗