heapsort
RESEARCH27

StaRPO: Stability-Augmented Reinforcement Policy Optimization

arXiv CS.AI·13. April 2026

StaRPO ist ein neuartiges Reinforcement-Learning-Framework, das entwickelt wurde, um die logische Konsistenz und strukturelle Kohärenz großer Sprachmodelle bei komplexen Denkaufgaben zu verbessern. Es integriert explizit Stabilitätsmetriken wie die Autokorrelationsfunktion und Pfadeffizienz, um die lokale Schritt-für-Schritt-Kohärenz und die globale Zielgerichtetheit des Denkprozesses zu bewerten.

Original lesen