reinforcement learning

153 items

DOCAWS Machine Learning Blog·vor 4Std

Scale Robot Reinforcement Learning with NVIDIA Isaac Lab on Amazon SageMaker AI

Dieser Beitrag zeigt, wie Roboterrichtlinien für den Unitree H1 Humanoiden mit NVIDIA Isaac Lab auf Amazon SageMaker AI trainiert werden. Es werden zwei Rechenoptionen vorgestellt: Amazon SageMaker HyperPod und Amazon SageMaker Training Jobs.

reinforcement learning learning robotics NVIDIA

RESEARCHarXiv CS.CL·vor 1T

Improving Cross-Lingual Factual Recall via Consistency-Driven Reinforcement Learning

Diese Forschung stellt PolyFact vor, einen mehrsprachigen faktischen QA-Datensatz, um die sprachübergreifende faktische Inkonsistenz in LLMs zu beheben. Es wird festgestellt, dass Reinforcement Learning mittels GRPO die sprachübergreifende faktenbasierte Wiedergabe und Generalisierung im Vergleich zu supervised Fine-Tuning konsistent verbessert.

Multilingual AI LLMs reinforcement learning machine learning

RESEARCHarXiv CS.LG·vor 1T

MacArena: Benchmarking Computer Use Agents on an Online macOS Environment

MacArena ist ein neuer Benchmark für computergesteuerte Agenten (CUAs), die grafische Benutzeroberflächen (GUIs) unter macOS bedienen, und schließt eine Lücke in der Benchmark-Landschaft für diese Plattform. Er bietet 421 manuell verifizierte Aufgaben in 50 Anwendungen, die nativ auf Apple Silicon laufen, um CUAs über Linux-basierte Benchmarks hinaus herauszufordern.

Computer-use agents reinforcement learning Benchmarking macOS

RESEARCHarXiv CS.LG·vor 20Std

Offline Reinforcement Learning for Plasma Control in Nuclear Fusion: Codebase and Benchmark

Offline-Reinforcement Learning ist vielversprechend für die Entwicklung von Plasmareglern aus historischen Tokamak-Daten. Es wird RL4F vorgestellt, ein Benchmark für Offline-Reinforcement Learning in der Kernfusions-Plasmaregelung, der Baselines bewertet und feststellt, dass modellbasierte RL-Methoden die besten Ergebnisse liefern.

AI Benchmarks reinforcement learning Plasma Control Tokamak

RESEARCHarXiv CS.CL·vor 20Std

TinyJudge: Unverifiable Constraint Alignment via Lightweight Specialist Ensembles

Der Artikel stellt TinyJudge vor, ein Framework, das ein Ensemble spezialisierter kleiner Sprachmodelle (0.6B) verwendet, um leichte und hochpräzise Belohnungen für weiche, nicht überprüfbare Einschränkungen bei der Befolgung von Anweisungen durch LLMs zu liefern. Dieser Ansatz behebt Engpässe wie Reward Hacking und hohen Rechenaufwand bei herkömmlichen LLM-as-a-Judge-Methoden zur Einschränkungsanpassung.

Tiny Models Model Alignment LLMs reinforcement learning

ARTICLEHugging Face Blog·vor 2T

The Open Source Community is backing OpenEnv for Agentic RL

Die Open-Source-Community unterstützt OpenEnv für die Entwicklung von agentischem Reinforcement Learning. Diese Initiative hebt die Zusammenarbeit bei der Weiterentwicklung von KI hervor.

Open Source reinforcement learning OpenEnv AI development

RESEARCH↑ trendingReddit r/MachineLearning·4/15/2026

Trained a Qwen2.5-0.5B-Instruct bf16 model on Reddit post summarization task with GRPO written from scratch in PyTorch - updates! [P]

Der Autor trainierte erfolgreich ein Qwen2.5-0.5B-Instruct Modell zur Reddit-Post-Zusammenfassung mittels GRPO, wobei eine durchschnittliche Ausgabelänge von 64 Tokens mit kombinierten Qualitäts- und Längenbelohnungen erreicht wurde. Das auf einem Mac Mini Cluster durchgeführte Experiment nutzt ein LLM-as-a-Judge (GPT-5) zur Evaluierung und plant zukünftige Iterationen mit angepassten Belohnungsfunktionen.

reinforcement learning Qwen2.5 GRPO Reddit

Trained a Qwen2.5-0.5B-Instruct bf16 model on Reddit post summarization task with GRPO written from scratch in PyTorch - updates! [P]

ARTICLE↑ trendingReddit r/MachineLearning·4/10/2026

Started a video series on building an orchestration layer for LLM post-training [P]

O autor iniciou uma série de vídeos sobre a construção de uma camada de orquestração para o pós-treinamento de LLMs. Ele descreve seus esforços para melhorar o framework `verl` para treinamento RL em escala, focando na modernização de pacotes e remoção de dependências irrelevantes.

reinforcement learning post-training orchestration frameworks

RESEARCHarXiv CS.CL·4/23/2026

PR-CAD: Progressive Refinement for Unified Controllable and Faithful Text-to-CAD Generation with Large Language Models

PR-CAD stellt ein progressives Verfeinerungsframework vor, das die Text-zu-CAD-Generierung und -Bearbeitung vereint und so die Einschränkungen getrennter Ansätze überwindet. Es nutzt einen hochauflösenden Interaktionsdatensatz und ein mit Reinforcement Learning verbessertes Denkframework, das auf LLMs zugeschnitten ist, um eine steuerbare und originalgetreue CAD-Modellierung zu ermöglichen.

LLMs reinforcement learning CAD modeling text-to-CAD

RESEARCH↑ trendingReddit r/MachineLearning·4/16/2026

Training Qwen2.5-0.5B-Instruct on Reddit posts summarization tasks with length constraint on my 3xMac Minis with GRPO - evals update [P]

Der Autor trainierte Qwen2.5-0.5B-Instruct für die Zusammenfassung von Reddit-Posts mithilfe zweier Belohnungsstrategien und stellte fest, dass eine Kombination aus Qualitäts- und Längenabzügen deutlich bessere Ergebnisse lieferte. Die Evaluation erfolgte mittels LLM-As-A-Judge und DeepEval Tools für Metriken wie Gewissenhaftigkeit und Klarheit.

evaluation reinforcement learning AI training summarization

RESEARCH↑ trendingReddit r/MachineLearning·4/16/2026

Why dynamically routing multi-timescale advantages in PPO causes policy collapse (and a simple decoupled fix) [R]

Ein studentischer KI-Forscher entdeckte, warum die Fusion von Vorteilen unterschiedlicher Zeitskalen in PPO-Actor-Critic-Architekturen zum Strategiezusammenbruch führt. Dies geschieht aufgrund des Manipulierens des Surrogat-Ziels und der Präferenz des Routers für kurzfristige Horizonte wegen geringerer zeitlicher Unsicherheit.

Optimization Actor-Critic reinforcement learning PPO

ARTICLE↑ trendingReddit r/MachineLearning·4/9/2026

Studying Sutton and Barto's RL book and its connections to RL for LLMs (e.g., tool use, math reasoning, agents, and so on)? [D]

Um graduado em Matemática busca orientação para estudar Aprendizado por Reforço (RL) e suas conexões com LLMs, especialmente para aplicações em matemática. Ele questiona a relevância do livro 'Sutton e Barto' em um contexto moderno de LLMs e pede ajuda para focar em tópicos e algoritmos mais recentes como PPO e GRPO.

Sutton e Barto LLMs AI para Matemática reinforcement learning

RESEARCHarXiv CS.AI·vor 5T

StepPRM-RTL: Stepwise Process-Reward Guided LLM Fine-Tuning for Enhanced RTL Synthesis

StepPRM-RTL ist ein neuartiges Framework, das die LLM-basierte RTL-Codegenerierung verbessert, indem es schrittweise Trajektorienmodellierung, Prozess-Reward-Modellierung (PRM) und retrieval-augmented Fine-Tuning (RAFT) kombiniert. Es nutzt dichtes Feedback eines PRM, um verstärkungsbasierte Updates zu leiten, und Monte Carlo Tree Search (MCTS) zur Anreicherung des Trainingsdatensatzes.

LLMs reinforcement learning code generation RTL Synthesis

RESEARCHarXiv CS.LG·4/16/2026

Pareto-Optimal Offline Reinforcement Learning via Smooth Tchebysheff Scalarization

Dieses Papier stellt STOMP vor, einen neuartigen Offline-Reinforcement-Learning-Algorithmus zur Mehrzieloptimierung mittels glatter Tchebyscheff-Skalarisierung. Er behebt die Einschränkung der linearen Skalarisierung bei der Wiederherstellung nicht-konvexer Pareto-Fronten, was entscheidend für die Ausrichtung großer Sprachmodelle und anderer realer Anwendungen mit widersprüchlichen Belohnungen ist.

reinforcement learning Multi-objective Optimization AI alignment machine learning

RESEARCHarXiv CS.LG·4/16/2026

Automated co-design of high-performance thermodynamic cycles via graph-based hierarchical reinforcement learning

Diese Studie stellt einen graphenbasierten hierarchischen Reinforcement-Learning-Ansatz für das automatisierte Co-Design leistungsstarker thermodynamischer Zyklen vor. Dabei werden Zyklen als Graphen kodiert, ein Deep-Learning-Surrogat zur Dekodierung verwendet und ein hierarchisches RL-Framework für die strukturelle Evolution sowie Parameteroptimierung eingesetzt.

Energy Systems deep learning reinforcement learning Graph Neural Networks

RESEARCHarXiv CS.LG·vor 5T

Self-Distilled Policy Gradient

Dieses Papier stellt den Self-Distilled Policy Gradient (SDPG) vor, ein neuartiges Framework, das spärlich belohntes Reinforcement Learning durch On-Policy-Selbst-Destillation verbessert. SDPG kombiniert gruppenrelative Verifizierervorteile, exakte vollständige Vokabular-On-Policy-Selbst-Destillation und Referenz-Policy-KL-Regularisierung und zeigt eine verbesserte Stabilität und Leistung gegenüber bestehenden Baselines.

language models deep learning reinforcement learning Policy Gradient

RESEARCHarXiv CS.LG·4/21/2026

Beyond Verifiable Rewards: Rubric-Based GRM for Reinforced Fine-Tuning SWE Agents

Diese Forschung stellt ein rubrikbasiertes Generatives Belohnungsmodell (GRM) vor, um das verstärkte Fein-Tuning (RFT) für LLM-Agenten bei Software-Engineering-Aufgaben (SWE) zu verbessern. Durch die Bereitstellung reichhaltigerer Lernsignale jenseits binärer Endbelohnungen formt dieser Ansatz Zwischenverhalten und verbessert die Qualität des Lösungsprozesses erheblich.

reinforcement learning Fine-tuning Software engineering AI agents

RESEARCHarXiv CS.LG·4/22/2026

Discrete Tilt Matching

Discrete Tilt Matching (DTM) ist eine neue, wahrscheinlichkeitstheorie-freie Methode zum Fine-Tuning maskierter Diffusions-Sprachmodelle (dLLMs), die das Problem der nicht bestimmbaren marginalen Wahrscheinlichkeiten löst. Sie formuliert das Fine-Tuning als Zustandsabgleich um und verwendet ein gewichtetes Kreuzentropie-Ziel mit Kontrollvariablen, wodurch sie signifikante Verbesserungen bei Aufgaben wie Sudoku und Countdown erzielt.

Diffusion Models LLMs reinforcement learning machine learning

RESEARCHarXiv CS.AI·vor 19T

Tool-Augmented Agent for Closed-loop Optimization,Simulation,and Modeling Orchestration

Das COSMO-Agent-Framework nutzt werkzeuggestützte Reinforcement Learning, um LLMs beizubringen, die semantische Lücke zwischen CAD und CAE zu schließen und so eine Closed-Loop-Optimierung im Industriedesign zu ermöglichen. Es verwendet eine interaktive RL-Umgebung für CAD-Generierung, CAE-Lösung und Geometrierevision, gesteuert durch eine Belohnung mit mehreren Einschränkungen.

LLMs CAD/CAE reinforcement learning Industrial design

RESEARCHarXiv CS.LG·vor 19T

GROW: Aligning GRPO with State-Action Modeling for Open-World VLM Agents

Dieses Papier stellt GROW vor, ein RL-Framework für VLM-Agenten in Open-World-Aufgaben, das die Grenzen bestehender SFT-basierter Methoden überwindet. Es schlägt einen neuartigen Ansatz für GRPO vor, indem Trajektorien in Zustands-Aktions-Proben statt vollständiger Einheiten zerlegt werden.

VLM Agents Policy optimization Open-world AI reinforcement learning