RESEARCH27
Adapt to Thrive! Adaptive Power-Mean Policy Optimization for Improved LLM Reasoning
arXiv CS.CL·7 de mayo de 2026
Esta investigación propone la Optimización de Política de Media de Potencia Adaptativa (APMPO) para mejorar el razonamiento de Modelos de Lenguaje Grandes (LLMs) mediante RLVR. APMPO utiliza un objetivo de media de potencia generalizado y un recorte adaptable por retroalimentación para mejorar la dinámica de aprendizaje y el rendimiento.
Leer original ↗