RESEARCH27
Adapt to Thrive! Adaptive Power-Mean Policy Optimization for Improved LLM Reasoning
arXiv CS.CL·7 mai 2026
Cette recherche présente l'Optimisation Adaptative de Politique de Moyenne de Puissance (APMPO) pour améliorer les capacités de raisonnement des Grands Modèles Linguistiques (LLMs) via RLVR. APMPO combine un objectif de moyenne de puissance généralisée et un écrêtage adaptatif par rétroaction pour optimiser la dynamique d'apprentissage et les performances.
Lire l'original ↗