RESEARCH27
StaRPO: Stability-Augmented Reinforcement Policy Optimization
arXiv CS.AI·13 de abril de 2026
StaRPO é um novo framework de aprendizagem por reforço projetado para melhorar a consistência lógica de modelos de linguagem grandes em tarefas de raciocínio complexas. Ele incorpora explicitamente métricas de estabilidade, como Função de Autocorrelação e Eficiência do Caminho, para avaliar a coerência local e a direcionalidade global do processo de raciocínio.
Ler original ↗