reinforcement learning

153 items

RESEARCHarXiv CS.AI·il y a 15j

Quantum Frog: Emergent Cooperation and Difficulty Scaling in a Quantized-Time Cooperative Game

Cet article présente "Quantum Frog", un jeu coopératif à deux joueurs basé sur une mécanique de temps quantifié, inspiré de Frogger. Il utilise l'apprentissage par renforcement pour analyser l'évolution de la difficulté du jeu, les politiques optimales et les stratégies de coopération émergentes.

reinforcement learning multi-agent systems game theory Cooperative AI

RESEARCHarXiv CS.AI·il y a 9j

Uncertainty-Aware and Temporally Regulated Expert Advice in Reinforcement Learning for Autonomous Driving

Cet article propose un cadre sensible à l'incertitude pour l'apprentissage par renforcement dans la conduite autonome, utilisant les conseils d'experts pour guider l'exploration en toute sécurité tout en évitant la dépendance à long terme. Il utilise des seuils adaptatifs pour le déclenchement des conseils et une stratégie de 'commitment-cooldown' pour réguler le guidage, démontrant des performances améliorées dans les simulations CARLA.

reinforcement learning autonomous driving Exploration uncertainty

RESEARCHarXiv CS.AI·il y a 16j

NeuroNL2LTL: A Neurosymbolic Framework for Natural Language Translation of Linear Temporal Logic

NeuroNL2LTL est une architecture neurosymbolique unifiant la traduction apprise et la vérification formelle pour traduire le langage naturel en Logique Temporelle Linéaire. Elle utilise un entraînement avec vérificateur dans la boucle, où les résultats de vérification servent de signaux de récompense pour l'apprentissage par renforcement, optimisant la correction formelle.

reinforcement learning Neurosymbolic AI Formal verification Natural Language Processing

RESEARCHDEV.to AI·03/05/2026

R1-Searcher: Incentivizing the Search Capability in LLMs via ReinforcementLearning

L'article traite de l'amélioration de la capacité de recherche des grands modèles linguistiques (LLM) par l'application de l'apprentissage par renforcement. Il propose une méthode pour inciter au comportement de recherche dans les LLM.

LLMs reinforcement learning machine learning Search

RESEARCHDEV.to AI·21/04/2026

Multi-Objective Deep Reinforcement Learning

Ce contenu explore le domaine de l'apprentissage profond par renforcement multi-objectif. Il aborde probablement les techniques permettant d'entraîner des agents d'IA à optimiser simultanément plusieurs critères de performance.

Optimization deep learning reinforcement learning

RESEARCHarXiv CS.LG·30/04/2026

A Survey of Multi-Agent Deep Reinforcement Learning with Graph Neural Network-Based Communication

Cet article examine la communication basée sur les GNNs dans l'apprentissage par renforcement multi-agents (MARL), constatant un manque de structure explicite. Il propose un processus de communication généralisé basé sur les GNNs pour rendre les concepts sous-jacents plus évidents et accessibles.

reinforcement learning Graph Neural Networks multi-agent systems

RESEARCHarXiv CS.LG·06/05/2026

Delay, Plateau, or Collapse: Evaluating the Impact of Systematic Verification Error on RLVR

Cet article étudie l'impact des erreurs de vérification systématiques sur l'apprentissage par renforcement avec récompenses vérifiables (RLVR), une approche visant à améliorer les capacités de raisonnement des grands modèles de langage. Contrairement aux analyses précédentes qui traitaient les erreurs comme aléatoires, cette étude montre que des erreurs systématiques peuvent amener les modèles à apprendre des comportements indésirables. Des expériences sur des tâches arithmétiques révèlent que les faux négatifs systématiques ont des effets similaires au bruit aléatoire, tandis que les faux positifs systématiques peuvent avoir des impacts plus graves.

reinforcement learning AI Errors Verification large language models

RESEARCHarXiv CS.LG·06/05/2026

Generate, Filter, Control, Replay: A Comprehensive Survey of Rollout Strategies for LLM Reinforcement Learning

Cette étude propose une vue agnostique de l'optimiseur des stratégies de déploiement (rollout) pour le post-entraînement des LLM de raisonnement basés sur le RL. Elle formalise les pipelines de déploiement avec une notation unifiée et introduit la taxonomie du cycle de vie Generate-Filter-Control-Replay (GFCR), décomposant les pipelines en quatre étapes modulaires.

Rollout Strategies reinforcement learning machine learning AI research

RESEARCHarXiv CS.CL·il y a 29j

AIPO: : Learning to Reason from Active Interaction

AIPO est un nouveau cadre d'apprentissage par renforcement qui améliore le raisonnement des LLM grâce à une interaction multi-agents active lors de l'exploration. Il s'attaque aux limites des algorithmes de RL existants, qui sont contraints par les capacités intrinsèques du modèle de politique et s'appuient sur un guidage inefficace.

LLMs reinforcement learning learning AI Reasoning

ARTICLETogether AI Blog·24/04/2026

Accelerate RL rollouts by up to 50% with distribution-aware speculative decoding

Le DAS (décodage spéculatif conscient de la distribution) résout le goulot d'étranglement du déploiement en post-entraînement RL. Il accélère les déploiements jusqu'à 50 % sans dégradation de la qualité de la récompense.

Optimization AI acceleration reinforcement learning machine learning

RESEARCHarXiv CS.LG·06/04/2026

Prism: Policy Reuse via Interpretable Strategy Mapping in Reinforcement Learning

O artigo apresenta PRISM, uma estrutura para Reinforcement Learning que fundamenta as decisões de agentes em conceitos discretos e causalmente validados, usando-os como interface de transferência zero-shot. Ele demonstra que esses conceitos impulsionam diretamente o comportamento do agente e que a importância de um conceito pode ser dissociada de sua frequência de uso.

Strategy Mapping reinforcement learning Transfer Learning interpretability

RESEARCHarXiv CS.CL·06/04/2026

Reinforcement Learning-based Knowledge Distillation with LLM-as-a-Judge

Este artigo propõe uma estrutura de Reinforcement Learning (RL) que utiliza um LLM como juiz para gerar recompensas, permitindo a destilação de conhecimento sem a necessidade de rótulos de verdade fundamental. A abordagem demonstra ganhos substanciais de desempenho em benchmarks de raciocínio matemático, sugerindo que avaliadores baseados em LLM podem produzir sinais de treinamento eficazes.

language models Unlabeled Data Knowledge Distillation Math Reasoning

RESEARCHarXiv CS.LG·06/04/2026

Contextual Intelligence The Next Leap for Reinforcement Learning

O texto aborda as limitações de generalização do Reinforcement Learning (RL), onde políticas aprendidas falham fora da distribuição de treinamento. Propõe uma nova taxonomia de contextos (alógenos e autógenos) e identifica direções de pesquisa cruciais para desenvolver uma verdadeira inteligência contextual.

Generalization Contextual Intelligence reinforcement learning Taxonomy

RESEARCHarXiv CS.LG·06/04/2026

LLM Reasoning with Process Rewards for Outcome-Guided Steps

Este conteúdo apresenta o PROGRS, um framework para melhorar o raciocínio matemático em LLMs, combinando modelos de recompensa de processo (PRMs) com a priorização da correção do resultado final. Ele busca resolver o problema de PRMs que podem recompensar raciocínios intermediários fluentes, mas que levam a respostas incorretas, otimizando o aprendizado com feedback mais alinhado.

mathematical reasoning Process Rewards reinforcement learning AI

RESEARCHarXiv CS.AI·il y a 20j

OSCToM: RL-Guided Adversarial Generation for High-Order Theory of Mind

Cet article présente OSCToM, une approche pour modéliser les conflits de croyances imbriqués dans les tâches de Théorie de l'Esprit basées sur les LLM. Il combine l'apprentissage par renforcement et des modèles de substitution pour générer ces conflits, OSCToM-8B obtenant les meilleurs résultats lors des expériences.

LLMs reinforcement learning AI research Theory of Mind

RESEARCHarXiv CS.AI·il y a 20j

SOLAR: A Self-Optimizing Open-Ended Autonomous Agent for Lifelong Learning and Continual Adaptation

SOLAR est un agent IA autonome conçu pour surmonter les défis des grands modèles de langage dans des environnements dynamiques, permettant l'apprentissage continu et l'adaptation constante. Il utilise le méta-apprentissage au niveau des paramètres et l'apprentissage par renforcement multi-niveaux pour s'auto-améliorer et découvrir des stratégies d'adaptation.

Meta-Learning reinforcement learning learning Lifelong Learning

RESEARCHarXiv CS.AI·il y a 20j

Mahjax: A GPU-Accelerated Mahjong Simulator for Reinforcement Learning in JAX

Mahjax est un nouvel environnement Riichi Mahjong entièrement vectorisé implémenté en JAX, conçu pour permettre une parallélisation à grande échelle sur GPU pour la recherche en apprentissage par renforcement. Il facilite l'apprentissage tabula rasa et comprend un outil de visualisation de haute qualité pour le débogage des agents entraînés.

reinforcement learning learning GPU Mahjong

RESEARCHHugging Face Blog·16/04/2026

Ecom-RLVE: Adaptive Verifiable Environments for E-Commerce Conversational Agents

Cette recherche introduit Ecom-RLVE, un cadre conçu pour créer des environnements adaptatifs et vérifiables pour les agents conversationnels opérant dans le commerce électronique. Elle se concentre sur le développement de systèmes d'IA robustes et fiables pour les interactions d'achat en ligne.

reinforcement learning Adaptive systems verifiable AI E-commerce

RESEARCHDEV.to AI·21/04/2026

Learning to be Safe: Deep RL with a Safety Critic

Ce contenu explore une approche novatrice de l'apprentissage par renforcement profond en intégrant un "critique de sécurité" pour prévenir les actions dangereuses. La méthodologie vise à améliorer la fiabilité et la robustesse des agents d'IA, les rendant adaptés à un déploiement dans le monde réel où la sécurité est cruciale.

deep learning reinforcement learning security machine learning

RESEARCHTogether AI Blog·31/03/2026

Aurora

Aurora est un framework RL open source qui transforme le décodage spéculatif en un système auto-améliorable, apprenant de chaque requête. Il offre une amélioration de 1,25x par rapport aux spéculateurs statiques bien entraînés.

open-source AI Framework reinforcement learning Performance Improvement