RESEARCH27
Adapt to Thrive! Adaptive Power-Mean Policy Optimization for Improved LLM Reasoning
arXiv CS.CL·7 de maio de 2026
Esta pesquisa apresenta a Otimização de Política de Média de Potência Adaptativa (APMPO) para melhorar as capacidades de raciocínio de Grandes Modelos de Linguagem (LLMs) usando RLVR. O APMPO integra um objetivo de média de potência generalizado e recorte adaptativo por feedback para otimizar a dinâmica de aprendizado e o desempenho.
Ler original ↗