RESEARCH27

Adapt to Thrive! Adaptive Power-Mean Policy Optimization for Improved LLM Reasoning

arXiv CS.CL·7. Mai 2026

Diese Forschung stellt Adaptive Power-Mean Policy Optimization (APMPO) vor, um die Schlussfolgerungsfähigkeiten von Großen Sprachmodellen (LLMs) mittels RLVR zu verbessern. APMPO kombiniert ein verallgemeinertes Potenzmittel-Ziel und adaptives Clipping, um die Lerndynamik und Leistung zu optimieren.

Policy optimization LLMs reinforcement learning machine learning Reasoning

Original lesen ↗