reinforcement learning

153 items

DOCAWS Machine Learning Blog·il y a 4h

Scale Robot Reinforcement Learning with NVIDIA Isaac Lab on Amazon SageMaker AI

Cet article montre comment entraîner des politiques de robot pour l'humanoïde Unitree H1 avec NVIDIA Isaac Lab sur Amazon SageMaker AI. Il aborde deux options de calcul : Amazon SageMaker HyperPod et Amazon SageMaker Training Jobs.

reinforcement learning learning robotics NVIDIA

RESEARCHarXiv CS.CL·il y a 1j

Improving Cross-Lingual Factual Recall via Consistency-Driven Reinforcement Learning

Cette recherche introduit PolyFact, un ensemble de données de QA factuel multilingue, pour aborder l'incohérence factuelle interlingue dans les LLMs. Elle constate que l'apprentissage par renforcement via GRPO améliore constamment le rappel factuel interlingue et la généralisation par rapport à l'ajustement fin supervisé.

Multilingual AI LLMs reinforcement learning machine learning

RESEARCHarXiv CS.LG·il y a 1j

MacArena: Benchmarking Computer Use Agents on an Online macOS Environment

MacArena est un nouveau benchmark pour les agents d'utilisation informatique (CUAs) opérant des interfaces utilisateur graphiques (GUIs) sur macOS, comblant le manque de benchmarks pour cette plateforme. Il propose 421 tâches vérifiées sur 50 applications, fonctionnant nativement sur Apple Silicon, pour défier les CUAs au-delà des benchmarks basés sur Linux.

Computer-use agents reinforcement learning Benchmarking macOS

RESEARCHarXiv CS.LG·il y a 20h

Offline Reinforcement Learning for Plasma Control in Nuclear Fusion: Codebase and Benchmark

L'apprentissage par renforcement hors ligne offre une voie prometteuse pour développer des contrôleurs de plasma à partir de données de tokamak historiques. Le RL4F est présenté comme un benchmark pour l'apprentissage par renforcement hors ligne dans le contrôle du plasma de fusion nucléaire, évaluant les méthodes de base et concluant que les méthodes basées sur des modèles sont les plus performantes.

AI Benchmarks reinforcement learning Plasma Control Tokamak

RESEARCHarXiv CS.CL·il y a 20h

TinyJudge: Unverifiable Constraint Alignment via Lightweight Specialist Ensembles

L'article introduit TinyJudge, un cadre qui utilise un ensemble de petits modèles de langage spécialisés (0.6B) pour fournir des récompenses légères et de haute précision pour les contraintes douces et invérifiables dans le suivi d'instructions par les LLM. Cette approche vise à résoudre les problèmes d'évasion des récompenses et de surcharge computationnelle des méthodes traditionnelles d'alignement des contraintes.

Tiny Models Model Alignment LLMs reinforcement learning

ARTICLEHugging Face Blog·il y a 2j

The Open Source Community is backing OpenEnv for Agentic RL

La communauté open source soutient OpenEnv pour le développement de l'apprentissage par renforcement agentique. Cette initiative met en lumière la collaboration dans l'avancement de l'IA.

Open Source reinforcement learning OpenEnv AI development

RESEARCH↑ trendingReddit r/MachineLearning·15/04/2026

Trained a Qwen2.5-0.5B-Instruct bf16 model on Reddit post summarization task with GRPO written from scratch in PyTorch - updates! [P]

L'auteur a réussi à entraîner un modèle Qwen2.5-0.5B-Instruct pour la summarisation de posts Reddit en utilisant GRPO, atteignant une longueur moyenne de 64 tokens avec des récompenses de qualité et de pénalité de longueur. L'expérience, exécutée sur un cluster de Mac Minis, utilise un "LLM-as-a-Judge" (GPT-5) pour l'évaluation et prévoit de futures itérations avec des fonctions de récompense ajustées.

reinforcement learning Qwen2.5 GRPO Reddit

Trained a Qwen2.5-0.5B-Instruct bf16 model on Reddit post summarization task with GRPO written from scratch in PyTorch - updates! [P]

ARTICLE↑ trendingReddit r/MachineLearning·10/04/2026

Started a video series on building an orchestration layer for LLM post-training [P]

O autor iniciou uma série de vídeos sobre a construção de uma camada de orquestração para o pós-treinamento de LLMs. Ele descreve seus esforços para melhorar o framework `verl` para treinamento RL em escala, focando na modernização de pacotes e remoção de dependências irrelevantes.

reinforcement learning post-training orchestration frameworks

RESEARCHarXiv CS.CL·23/04/2026

PR-CAD: Progressive Refinement for Unified Controllable and Faithful Text-to-CAD Generation with Large Language Models

PR-CAD propose un cadre de raffinement progressif qui unifie la génération et l'édition de CAO à partir de texte, surmontant les limites des approches disjointes. Il exploite un ensemble de données d'interaction haute fidélité et un cadre de raisonnement amélioré par l'apprentissage par renforcement, adapté aux LLM, pour permettre une modélisation CAO contrôlable et fidèle.

LLMs reinforcement learning CAD modeling text-to-CAD

RESEARCH↑ trendingReddit r/MachineLearning·16/04/2026

Training Qwen2.5-0.5B-Instruct on Reddit posts summarization tasks with length constraint on my 3xMac Minis with GRPO - evals update [P]

L'auteur a entraîné Qwen2.5-0.5B-Instruct pour des tâches de résumé de posts Reddit avec deux stratégies de récompense, constatant qu'une combinaison de pénalités de qualité et de longueur donnait des résultats significativement meilleurs. L'évaluation a été réalisée à l'aide de LLM-As-A-Judge et des outils DeepEval pour des métriques comme la conscience et la clarté.

evaluation reinforcement learning AI training summarization

RESEARCH↑ trendingReddit r/MachineLearning·16/04/2026

Why dynamically routing multi-timescale advantages in PPO causes policy collapse (and a simple decoupled fix) [R]

Un chercheur étudiant en IA a découvert pourquoi la fusion d'avantages à plusieurs échelles de temps dans les architectures PPO Actor-Critic provoque l'effondrement de la politique. Cela est dû au «piratage» de l'objectif de substitution et à la préférence pour les horizons à court terme en raison d'une incertitude temporelle plus faible.

Optimization Actor-Critic reinforcement learning PPO

ARTICLE↑ trendingReddit r/MachineLearning·09/04/2026

Studying Sutton and Barto's RL book and its connections to RL for LLMs (e.g., tool use, math reasoning, agents, and so on)? [D]

Um graduado em Matemática busca orientação para estudar Aprendizado por Reforço (RL) e suas conexões com LLMs, especialmente para aplicações em matemática. Ele questiona a relevância do livro 'Sutton e Barto' em um contexto moderno de LLMs e pede ajuda para focar em tópicos e algoritmos mais recentes como PPO e GRPO.

Sutton e Barto LLMs AI para Matemática reinforcement learning

RESEARCHarXiv CS.AI·il y a 5j

StepPRM-RTL: Stepwise Process-Reward Guided LLM Fine-Tuning for Enhanced RTL Synthesis

StepPRM-RTL est un nouveau framework qui améliore la génération de code RTL basée sur LLM, en combinant la modélisation de trajectoire pas à pas, la modélisation de récompense de processus (PRM) et le réglage fin augmenté par récupération (RAFT). Il utilise un feedback dense d'un PRM pour guider les mises à jour de type renforcement et la recherche arborescente de Monte Carlo (MCTS) pour enrichir l'ensemble de données d'entraînement.

LLMs reinforcement learning code generation RTL Synthesis

RESEARCHarXiv CS.LG·16/04/2026

Pareto-Optimal Offline Reinforcement Learning via Smooth Tchebysheff Scalarization

Cet article présente STOMP, un nouvel algorithme d'apprentissage par renforcement hors ligne pour l'optimisation multi-objectif via la scalarisation douce de Tchebysheff. Il résout les défaillances de la scalarisation linéaire pour récupérer les régions non convexes du front de Pareto, essentielles pour aligner les grands modèles linguistiques et d'autres applications avec des récompenses conflictuelles.

reinforcement learning Multi-objective Optimization AI alignment machine learning

RESEARCHarXiv CS.LG·16/04/2026

Automated co-design of high-performance thermodynamic cycles via graph-based hierarchical reinforcement learning

Cette étude introduit une approche d'apprentissage par renforcement hiérarchique basée sur les graphes pour la co-conception automatisée de cycles thermodynamiques haute performance. Elle encode les cycles comme des graphes, utilise un substitut de deep learning pour le décodage et un cadre de RL pour l'évolution structurelle et l'optimisation des paramètres.

Energy Systems deep learning reinforcement learning Graph Neural Networks

RESEARCHarXiv CS.LG·il y a 5j

Self-Distilled Policy Gradient

Cet article présente le Self-Distilled Policy Gradient (SDPG), un nouveau cadre qui améliore l'apprentissage par renforcement à récompense clairsemée grâce à l'autodistillation on-policy. Le SDPG intègre des avantages de vérificateur relatifs au groupe, une autodistillation exacte du vocabulaire complet et une régularisation KL, démontrant une stabilité et des performances améliorées par rapport aux références existantes.

language models deep learning reinforcement learning Policy Gradient

RESEARCHarXiv CS.LG·21/04/2026

Beyond Verifiable Rewards: Rubric-Based GRM for Reinforced Fine-Tuning SWE Agents

Cette recherche présente un modèle de récompense génératif (GRM) basé sur des rubriques pour améliorer le réglage fin renforcé (RFT) des agents LLM dans les tâches d'ingénierie logicielle (SWE). En fournissant des signaux d'apprentissage plus riches au-delà des récompenses terminales binaires, cette approche façonne les comportements intermédiaires et améliore significativement la qualité du processus de résolution.

reinforcement learning Fine-tuning Software engineering AI agents

RESEARCHarXiv CS.LG·22/04/2026

Discrete Tilt Matching

Discrete Tilt Matching (DTM) est une nouvelle méthode sans vraisemblance pour l'affinage des grands modèles linguistiques de diffusion masqués (dLLMs), résolvant l'intractabilité des vraisemblances marginales. Cette approche reformule l'affinage en correspondance au niveau de l'état et utilise un objectif d'entropie croisée pondérée avec des variables de contrôle, démontrant des gains importants sur des tâches comme Sudoku et Countdown.

Diffusion Models LLMs reinforcement learning machine learning

RESEARCHarXiv CS.AI·il y a 19j

Tool-Augmented Agent for Closed-loop Optimization,Simulation,and Modeling Orchestration

Le framework COSMO-Agent utilise l'apprentissage par renforcement augmenté par des outils pour enseigner aux LLM à combler le fossé sémantique CAD-CAE, permettant une optimisation en boucle fermée dans la conception industrielle. Il exploite un environnement de RL interactif pour la génération CAD, la résolution CAE et la révision géométrique, guidé par une récompense multi-contraintes.

LLMs CAD/CAE reinforcement learning Industrial design

RESEARCHarXiv CS.LG·il y a 19j

GROW: Aligning GRPO with State-Action Modeling for Open-World VLM Agents

Cet article introduit GROW, un cadre de RL pour les agents VLM dans les tâches en monde ouvert, dépassant les limites des méthodes basées sur SFT. Il propose une nouvelle approche pour le GRPO, décomposant les trajectoires en échantillons état-action plutôt qu'en entités complètes.

VLM Agents Policy optimization Open-world AI reinforcement learning