RESEARCH27

Adapt to Thrive! Adaptive Power-Mean Policy Optimization for Improved LLM Reasoning

arXiv CS.CL·7 de maio de 2026

Esta pesquisa apresenta a Otimização de Política de Média de Potência Adaptativa (APMPO) para melhorar as capacidades de raciocínio de Grandes Modelos de Linguagem (LLMs) usando RLVR. O APMPO integra um objetivo de média de potência generalizado e recorte adaptativo por feedback para otimizar a dinâmica de aprendizado e o desempenho.

Policy optimization LLMs reinforcement learning machine learning Reasoning

Ler original ↗