RESEARCH27

StaRPO: Stability-Augmented Reinforcement Policy Optimization

arXiv CS.AI·13 de abril de 2026

StaRPO é um novo framework de aprendizagem por reforço projetado para melhorar a consistência lógica de modelos de linguagem grandes em tarefas de raciocínio complexas. Ele incorpora explicitamente métricas de estabilidade, como Função de Autocorrelação e Eficiência do Caminho, para avaliar a coerência local e a direcionalidade global do processo de raciocínio.

Policy optimization LLMs reinforcement learning Reasoning large language models

Ler original ↗