reinforcement learning

153 items

RESEARCHarXiv CS.CL·il y a 14j

RICE-PO: Turning Retrieval Interactions into Credit Signals for Reasoning Agents

RICE-PO est un nouveau cadre d'optimisation de politique sans critique qui s'attaque au défi d'attribution de crédit dans les agents linguistiques interactifs. Il convertit les interactions de récupération en signaux d'apprentissage localisés, évaluant les actions exécutables et propageant le crédit aux étapes de raisonnement latentes.

Policy optimization reinforcement learning Retrieval systems AI agents

ARTICLEHugging Face Blog·il y a 6j

Direct Preference Optimization Beyond Chatbots

Cet article explore l'optimisation des préférences directes (DPO), une méthode permettant d'aligner les modèles d'IA sur les préférences humaines, en examinant ses applications potentielles au-delà des chatbots traditionnels. Il examine comment le DPO peut être utilisé dans divers domaines de l'IA.

language models reinforcement learning learning DPO

ARTICLEAnalytics Vidhya·il y a 22j

Top 10 AI Research Papers of 2025

La recherche en IA en 2025 a connu un changement majeur, passant des chatbots aux systèmes de raisonnement, aux agents autonomes et aux systèmes multimodaux. Des entreprises comme Google DeepMind et OpenAI ont fait progresser des domaines tels que les agents de codage et les systèmes de sécurité évolutifs.

multimodal AI reinforcement learning reasoning AI autonomous agents

RESEARCHDEV.to AI·il y a 13j

Chain-of-Agents: End-to-End Agent Foundation Models via Multi-Agent Distillationand Agentic RL

Cette recherche introduit Chain-of-Agents, un cadre de bout en bout pour le développement de modèles de fondation d'agents. Il utilise la distillation multi-agents et l'apprentissage par renforcement agentique pour améliorer les capacités des agents IA.

AI models reinforcement learning machine learning foundation models

RESEARCHDEV.to AI·26/04/2026

RecoGym: A Reinforcement Learning Environment for the problem of ProductRecommendation in Online Advertising

RecoGym est un environnement d'apprentissage par renforcement conçu pour simuler les problèmes de recommandation de produits dans la publicité en ligne. Il offre une plateforme aux chercheurs et aux praticiens pour tester et développer de nouveaux algorithmes de RL pour les systèmes de recommandation.

Online Advertising reinforcement learning machine learning Simulation Environment

RESEARCHarXiv CS.CL·20/04/2026

"Excuse me, may I say something..." CoLabScience, A Proactive AI Assistant for Biomedical Discovery and LLM-Expert Collaborations

CoLabScience est un assistant LLM proactif visant à accélérer la découverte biomédicale en améliorant la collaboration entre l'IA et les experts humains. Il intègre PULI, un cadre d'apprentissage par renforcement pour des interventions contextuelles, et présente BSDD, un nouveau jeu de données de dialogue de recherche simulé.

LLMs AI collaboration reinforcement learning datasets

RESEARCHDEV.to AI·07/05/2026

ReTool: Reinforcement Learning for Strategic Tool Use in LLMs

ReTool présente un nouveau cadre d'apprentissage par renforcement conçu pour améliorer les capacités d'utilisation stratégique d'outils des Grands Modèles Linguistiques. Cette approche vise à optimiser la manière dont les LLM sélectionnent et utilisent des outils externes pour résoudre des tâches complexes plus efficacement et plus rapidement.

LLMs reinforcement learning machine learning tool use

RESEARCHDEV.to AI·il y a 17j

The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models

Cette recherche explore le mécanisme d'entropie de l'apprentissage par renforcement, spécifiquement son application pour améliorer les capacités de raisonnement dans les modèles de langage. Elle étudie comment l'entropie peut être exploitée pour améliorer le processus d'apprentissage et la prise de décision pour un raisonnement plus robuste des modèles de langage.

language models reinforcement learning learning Reasoning

RESEARCHDEV.to AI·12/04/2026

Explainable Causal Reinforcement Learning for wildfire evacuation logistics networks in carbon-negative infrastructure

Cette recherche vise à surmonter les limitations des modèles standards de Reinforcement Learning pour l'optimisation des évacuations en cas d'incendie de forêt. L'auteur applique l'inférence causale, inspirée par Judea Pearl et Bernhard Schölkopf, pour gérer les recommandations inexplicables et les variables de confusion.

wildfire evacuation reinforcement learning Explainable AI Causal Reinforcement Learning

ARTICLEDEV.to AI·07/05/2026

Meta-Optimized Continual Adaptation for circular manufacturing supply chains in carbon-negative infrastructure

L'auteur décrit un moment décisif où l'optimisation statique, y compris le méta-apprentissage, s'est avérée obsolète pour les chaînes d'approvisionnement de fabrication circulaire dynamiques, échouant catastrophiquement lors de changements de politique soudains comme une taxe carbone. Cette expérience a mis en évidence la limitation fondamentale des méthodes traditionnelles à s'adapter aux complexités du monde réel.

Meta-Learning carbon-negative infrastructure reinforcement learning supply chain optimization

RESEARCHDEV.to AI·06/05/2026

Generative Simulation Benchmarking for deep-sea exploration habitat design during mission-critical recovery windows

Ce contenu décrit le parcours d'un chercheur utilisant l'IA générative pour la conception d'habitats d'exploration en eaux profondes. Après un échec initial, il a entrepris une étude d'un an pour développer des méthodes d'évaluation comparative des modèles génératifs par rapport aux contraintes du monde réel dans des environnements extrêmes.

reinforcement learning benchmarking Deep-sea exploration simulation

RESEARCHDEV.to AI·21/04/2026

Explainable Causal Reinforcement Learning for satellite anomaly response operations under multi-jurisdictional compliance

Le texte aborde la nécessité d'une IA explicable et causale pour les opérations spatiales, illustrant avec un incident de satellite où une correction automatisée a violé les réglementations de souveraineté des données. Il souligne l'échec des approches traditionnelles de l'IA à gérer la complexité des contraintes techniques, des priorités opérationnelles et des frontières juridictionnelles.

Anomaly Detection Aerospace AI reinforcement learning Explainable AI

RESEARCHDEV.to AI·01/05/2026

Deep Dyna-Q: Integrating Planning for Task-Completion Dialogue Policy Learning

Ce contenu présente Deep Dyna-Q, une approche qui intègre la planification pour l'apprentissage des politiques de dialogue dans les systèmes de conversation basés sur l'IA. L'objectif est d'optimiser le processus d'achèvement des tâches via l'interaction dialoguée avec l'IA.

reinforcement learning Natural Language Processing AI algorithms dialogue systems

ARTICLEDEV.to AI·il y a 14j

Human-Aligned Decision Transformers for bio-inspired soft robotics maintenance under real-time policy constraints

Un récit personnel détaille la lutte d'un chercheur avec un Decision Transformer qui échouait à maintenir des pinces robotiques souples bio-inspirées en déploiement réel, malgré des performances élevées en simulation. Le problème critique identifié était le désalignement entre la politique apprise par l'IA et les attentes humaines en matière de sécurité pour le matériel délicat.

decision-transformers reinforcement learning learning maintenance

DOCDEV.to AI·10/05/2026

Understanding Reinforcement Learning with Neural Networks Part 2: Why Backpropagation Is Not Enough

Cet article, faisant partie d'une série, explique pourquoi la rétropropagation standard est insuffisante pour certains scénarios d'apprentissage par renforcement. Il souligne la nécessité des gradients de politique en démontrant comment le calcul d'erreur et l'application des dérivées diffèrent de l'entraînement traditionnel des réseaux neuronaux.

neural networks reinforcement learning learning backpropagation

ARTICLEHugging Face Blog·06/05/2026

vLLM V0 to V1: Correctness Before Corrections in RL

Ce contenu traite de la transition de vLLM V0 à V1, en mettant l'accent sur l'importance de la justesse avant les corrections dans l'apprentissage par renforcement. Il explore les principes de développement et les améliorations pour garantir l'intégrité et la performance des systèmes d'IA.

LLMs reinforcement learning machine learning AI development

RESEARCHDEV.to AI·il y a 26j

Episodic Exploration for Deep Deterministic Policies: An Application toStarCraft Micromanagement Tasks

Cet article de recherche introduit des techniques d'exploration épisodique appliquées aux politiques déterministes profondes. Il se concentre sur l'amélioration des performances de l'IA dans les tâches complexes de microgestion de StarCraft.

Episodic Exploration deep learning reinforcement learning Game AI

ARTICLEDEV.to AI·16/04/2026

Policy Gradients — Deep Dive + Problem: Valid Parentheses

Les Policy Gradients sont un algorithme fondamental de l'apprentissage par renforcement qui optimise directement la politique, qui mappe les états aux actions, à l'aide de méthodes basées sur le gradient. C'est crucial pour gérer les espaces d'action de grande dimension et apprendre des politiques stochastiques, offrant des avantages sur les méthodes basées sur la valeur en apprenant la politique directement.

reinforcement learning machine learning Policy Gradients

RESEARCHarXiv CS.CL·15/04/2026

Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision

Self-Distillation Zero (SD-Zero) est une nouvelle méthode de post-entraînement plus efficace en termes d'échantillons que l'apprentissage par renforcement, sans nécessiter d'enseignants externes ou de démonstrations de haute qualité. Elle entraîne un modèle unique à jouer les rôles de Générateur et de Réviseur, transformant les récompenses binaires éparses en une supervision dense via l'autodistillation.

reinforcement learning post-training Dense Supervision Self-Distillation

RESEARCHarXiv CS.AI·15/04/2026

Self-Monitoring Benefits from Structural Integration: Lessons from Metacognition in Continuous-Time Multi-Timescale Agents

Cette étude examine l'utilité des capacités d'auto-surveillance (métacognition, auto-prédiction) chez les agents d'apprentissage par renforcement, constatant qu'elles n'offrent aucun bénéfice significatif. Les modules implémentés se sont effondrés vers des sorties quasi constantes, indiquant l'inefficacité des mécanismes testés.

reinforcement learning Metacognition self-monitoring continuous-time agents