RESEARCH27
StaRPO: Stability-Augmented Reinforcement Policy Optimization
arXiv CS.AI·13. April 2026
StaRPO ist ein neuartiges Reinforcement-Learning-Framework, das entwickelt wurde, um die logische Konsistenz und strukturelle Kohärenz großer Sprachmodelle bei komplexen Denkaufgaben zu verbessern. Es integriert explizit Stabilitätsmetriken wie die Autokorrelationsfunktion und Pfadeffizienz, um die lokale Schritt-für-Schritt-Kohärenz und die globale Zielgerichtetheit des Denkprozesses zu bewerten.
Original lesen ↗