Policy optimization

6 items

RESEARCHarXiv CS.LG·il y a 20j

GROW: Aligning GRPO with State-Action Modeling for Open-World VLM Agents

Cet article introduit GROW, un cadre de RL pour les agents VLM dans les tâches en monde ouvert, dépassant les limites des méthodes basées sur SFT. Il propose une nouvelle approche pour le GRPO, décomposant les trajectoires en échantillons état-action plutôt qu'en entités complètes.

VLM Agents Policy optimization Open-world AI reinforcement learning

DOCAWS Machine Learning Blog·07/05/2026

Overcoming reward signal challenges: Verifiable rewards-based reinforcement learning with GRPO on SageMaker AI

Ce billet décrit la mise en œuvre de l'apprentissage par renforcement basé sur des récompenses vérifiables (RLVR) pour améliorer les performances d'entraînement en introduisant la vérification et la transparence des signaux de récompense. Il aborde des techniques comme GRPO et les exemples de few-shot, illustrés avec l'ensemble de données GSM8K pour améliorer la précision de la résolution de problèmes mathématiques.

Policy optimization reinforcement learning learning AI training

RESEARCHarXiv CS.AI·13/04/2026

StaRPO: Stability-Augmented Reinforcement Policy Optimization

StaRPO est un nouveau cadre d'apprentissage par renforcement conçu pour améliorer la cohérence logique et la structure des grands modèles de langage dans les tâches de raisonnement complexes. Il intègre explicitement des métriques de stabilité, telles que la fonction d'autocorrélation et l'efficacité du chemin, pour évaluer la cohérence locale et l'orientation globale du processus de raisonnement.

Policy optimization LLMs reinforcement learning Reasoning

RESEARCHarXiv CS.CL·il y a 14j

RICE-PO: Turning Retrieval Interactions into Credit Signals for Reasoning Agents

RICE-PO est un nouveau cadre d'optimisation de politique sans critique qui s'attaque au défi d'attribution de crédit dans les agents linguistiques interactifs. Il convertit les interactions de récupération en signaux d'apprentissage localisés, évaluant les actions exécutables et propageant le crédit aux étapes de raisonnement latentes.

Policy optimization reinforcement learning Retrieval systems AI agents

RESEARCHarXiv CS.CL·07/05/2026

Adapt to Thrive! Adaptive Power-Mean Policy Optimization for Improved LLM Reasoning

Cette recherche présente l'Optimisation Adaptative de Politique de Moyenne de Puissance (APMPO) pour améliorer les capacités de raisonnement des Grands Modèles Linguistiques (LLMs) via RLVR. APMPO combine un objectif de moyenne de puissance généralisée et un écrêtage adaptatif par rétroaction pour optimiser la dynamique d'apprentissage et les performances.

Policy optimization LLMs reinforcement learning machine learning

RESEARCHQwen Blog·27/07/2025

GSPO: Towards Scalable Reinforcement Learning for Language Models

O Reinforcement Learning é crucial para escalar modelos de linguagem, mas algoritmos existentes sofrem de instabilidade e colapso do modelo. Para resolver isso e permitir o escalonamento bem-sucedido, propõe-se o algoritmo Group Sequence Policy Optimization (GSPO).

Scalability Policy optimization language models reinforcement learning