← heapsort-ai

Policy optimization

6 items

DOCAWS Machine Learning Blog·07/05/2026

Overcoming reward signal challenges: Verifiable rewards-based reinforcement learning with GRPO on SageMaker AI

Ce billet décrit la mise en œuvre de l'apprentissage par renforcement basé sur des récompenses vérifiables (RLVR) pour améliorer les performances d'entraînement en introduisant la vérification et la transparence des signaux de récompense. Il aborde des techniques comme GRPO et les exemples de few-shot, illustrés avec l'ensemble de données GSM8K pour améliorer la précision de la résolution de problèmes mathématiques.

29
RESEARCHarXiv CS.AI·13/04/2026

StaRPO: Stability-Augmented Reinforcement Policy Optimization

StaRPO est un nouveau cadre d'apprentissage par renforcement conçu pour améliorer la cohérence logique et la structure des grands modèles de langage dans les tâches de raisonnement complexes. Il intègre explicitement des métriques de stabilité, telles que la fonction d'autocorrélation et l'efficacité du chemin, pour évaluer la cohérence locale et l'orientation globale du processus de raisonnement.

27
RESEARCHarXiv CS.CL·il y a 14j

RICE-PO: Turning Retrieval Interactions into Credit Signals for Reasoning Agents

RICE-PO est un nouveau cadre d'optimisation de politique sans critique qui s'attaque au défi d'attribution de crédit dans les agents linguistiques interactifs. Il convertit les interactions de récupération en signaux d'apprentissage localisés, évaluant les actions exécutables et propageant le crédit aux étapes de raisonnement latentes.

27
RESEARCHarXiv CS.CL·07/05/2026

Adapt to Thrive! Adaptive Power-Mean Policy Optimization for Improved LLM Reasoning

Cette recherche présente l'Optimisation Adaptative de Politique de Moyenne de Puissance (APMPO) pour améliorer les capacités de raisonnement des Grands Modèles Linguistiques (LLMs) via RLVR. APMPO combine un objectif de moyenne de puissance généralisée et un écrêtage adaptatif par rétroaction pour optimiser la dynamique d'apprentissage et les performances.

27