Policy optimization

6 items

RESEARCHarXiv CS.LG·vor 19T

GROW: Aligning GRPO with State-Action Modeling for Open-World VLM Agents

Dieses Papier stellt GROW vor, ein RL-Framework für VLM-Agenten in Open-World-Aufgaben, das die Grenzen bestehender SFT-basierter Methoden überwindet. Es schlägt einen neuartigen Ansatz für GRPO vor, indem Trajektorien in Zustands-Aktions-Proben statt vollständiger Einheiten zerlegt werden.

VLM Agents Policy optimization Open-world AI reinforcement learning

DOCAWS Machine Learning Blog·5/7/2026

Overcoming reward signal challenges: Verifiable rewards-based reinforcement learning with GRPO on SageMaker AI

Dieser Beitrag beschreibt die Implementierung von verifizierbarem belohnungsbasiertem Reinforcement Learning (RLVR), um die Trainingsleistung durch Transparenz und Korrektheit der Belohnungssignale zu verbessern. Er behandelt Techniken wie GRPO und Few-Shot-Beispiele, demonstriert am GSM8K-Datensatz zur Verbesserung der Genauigkeit bei der Lösung mathematischer Probleme.

Policy optimization reinforcement learning learning AI training

RESEARCHarXiv CS.AI·4/13/2026

StaRPO: Stability-Augmented Reinforcement Policy Optimization

StaRPO ist ein neuartiges Reinforcement-Learning-Framework, das entwickelt wurde, um die logische Konsistenz und strukturelle Kohärenz großer Sprachmodelle bei komplexen Denkaufgaben zu verbessern. Es integriert explizit Stabilitätsmetriken wie die Autokorrelationsfunktion und Pfadeffizienz, um die lokale Schritt-für-Schritt-Kohärenz und die globale Zielgerichtetheit des Denkprozesses zu bewerten.

Policy optimization LLMs reinforcement learning Reasoning

RESEARCHarXiv CS.CL·vor 13T

RICE-PO: Turning Retrieval Interactions into Credit Signals for Reasoning Agents

RICE-PO ist ein neuer kritikfreier Rahmen zur Politikoptimierung, der die Herausforderung der Kreditzuweisung in interaktiven Sprachagenten löst. Er wandelt Abrufinteraktionen in lokalisierte Lernsignale um, indem er ausführbare Aktionen bewertet und Kredite an latente Denkprozesse weiterleitet.

Policy optimization reinforcement learning Retrieval systems AI agents

RESEARCHarXiv CS.CL·5/7/2026

Adapt to Thrive! Adaptive Power-Mean Policy Optimization for Improved LLM Reasoning

Diese Forschung stellt Adaptive Power-Mean Policy Optimization (APMPO) vor, um die Schlussfolgerungsfähigkeiten von Großen Sprachmodellen (LLMs) mittels RLVR zu verbessern. APMPO kombiniert ein verallgemeinertes Potenzmittel-Ziel und adaptives Clipping, um die Lerndynamik und Leistung zu optimieren.

Policy optimization LLMs reinforcement learning machine learning

RESEARCHQwen Blog·7/27/2025

GSPO: Towards Scalable Reinforcement Learning for Language Models

O Reinforcement Learning é crucial para escalar modelos de linguagem, mas algoritmos existentes sofrem de instabilidade e colapso do modelo. Para resolver isso e permitir o escalonamento bem-sucedido, propõe-se o algoritmo Group Sequence Policy Optimization (GSPO).

Scalability Policy optimization language models reinforcement learning