reinforcement learning

153 items

ARTICLEDEV.to AI·il y a 4j

Agent Lightning: Train ANY AI Agents with Reinforcement Learning

Agent Lightning est un framework conçu pour entraîner n'importe quel agent d'IA en utilisant l'apprentissage par renforcement. Il vise à simplifier et à accélérer le processus de développement et d'optimisation des agents intelligents.

reinforcement learning AI training machine learning AI agents

RESEARCHarXiv CS.LG·16/04/2026

Design Conditions for Intra-Group Learning of Sequence-Level Rewards: Token Gradient Cancellation

Cet article présente une condition nécessaire pour la conception d'algorithmes d'apprentissage intra-groupe en Reinforcement Learning, exigeant que les objectifs maintiennent l'échangeabilité des gradients pour prévenir la dérive. Il propose des transformations minimales pour restaurer cette structure d'annulation, ce qui stabilise l'entraînement et améliore l'efficacité des échantillons.

reinforcement learning large language models gradient dynamics model optimization

RESEARCHarXiv CS.LG·16/04/2026

Adaptive Memory Crystallization for Autonomous AI Agent Learning in Dynamic Environments

Cette recherche introduit la Cristallisation Adaptative de la Mémoire (AMC), une nouvelle architecture de mémoire pour permettre aux agents d'IA autonomes de consolider progressivement leurs expériences sans oublier les connaissances antérieures. L'AMC modélise la mémoire comme un processus continu de cristallisation sur une hiérarchie en trois phases, inspirée par la théorie du marquage et de la capture synaptique.

reinforcement learning machine learning memory architecture AI agents

DOCAWS Machine Learning Blog·07/05/2026

Overcoming reward signal challenges: Verifiable rewards-based reinforcement learning with GRPO on SageMaker AI

Ce billet décrit la mise en œuvre de l'apprentissage par renforcement basé sur des récompenses vérifiables (RLVR) pour améliorer les performances d'entraînement en introduisant la vérification et la transparence des signaux de récompense. Il aborde des techniques comme GRPO et les exemples de few-shot, illustrés avec l'ensemble de données GSM8K pour améliorer la précision de la résolution de problèmes mathématiques.

Policy optimization reinforcement learning learning AI training

RESEARCHarXiv CS.LG·il y a 17j

HealthCraft: A Reinforcement Learning Safety Environment for Emergency Medicine

L'article présente HealthCraft, un environnement public d'apprentissage par renforcement pour évaluer la sécurité des modèles de langage de pointe en médecine d'urgence. Il se concentre sur la sécurité au niveau de la trajectoire, l'utilisation abusive des outils et la pression clinique, construit sur un état du monde FHIR R4 et offrant 195 tâches pour une évaluation complète.

LLMs evaluation reinforcement learning medical AI

RESEARCHarXiv CS.LG·06/04/2026

OPRIDE: Offline Preference-based Reinforcement Learning via In-Dataset Exploration

O artigo aborda a baixa eficiência de consulta em Aprendizado por Reforço Baseado em Preferências (PbRL) offline, propondo o algoritmo OPRIDE. Este algoritmo visa melhorar a eficiência de consulta através de uma estratégia de exploração informativa e um mecanismo de agendamento de desconto para mitigar a superotimização da função de recompensa.

reinforcement learning Query Efficiency Exploration Offline Learning

RESEARCHarXiv CS.LG·il y a 27j

$\xi$-DPO: Direct Preference Optimization via Ratio Reward Margin

Cet article présente -DPO, une optimisation de préférence directe via une marge de récompense par ratio, afin de résoudre le défi de l'ajustement des hyperparamètres dans SimPO. La recherche analyse SimPO et reformule l'objectif de préférence pour améliorer l'interprétabilité sur des ensembles de données avec différentes structures d'écart de récompense.

Preference Optimization deep learning reinforcement learning Hyperparameter Tuning

RESEARCHarXiv CS.LG·il y a 20j

ReCrit: Transition-Aware Reinforcement Learning for Scientific Critic Reasoning

ReCrit est un nouveau cadre d'apprentissage par renforcement conçu pour améliorer la performance des grands modèles linguistiques dans l'interaction critique scientifique. Il aborde le problème des LLM qui abandonnent des solutions correctes après une critique de l'utilisateur, en se concentrant sur les transitions de correction entre les tours et en catégorisant les comportements tels que la correction, la sycophanie et la robustesse.

reinforcement learning learning Scientific Reasoning large language models

RESEARCHDEV.to AI·14/04/2026

Adaptive Neuro-Symbolic Planning for deep-sea exploration habitat design in hybrid quantum-classical pipelines

Un agent d'apprentissage par renforcement chargé d'optimiser la conception d'un habitat sous-marin a produit un design impossible, soulignant les limites de l'IA purement sub-symbolique lorsque les contraintes symboliques sont faiblement appliquées. Cette expérience a orienté la recherche vers la planification neuro-symbolique adaptative pour les conceptions critiques.

AI limitations Habitat Design reinforcement learning Deep-sea exploration

RESEARCHDEV.to AI·10/04/2026

Deep Reinforcement Learning for Sepsis Treatment

Este conteúdo aborda a aplicação de Aprendizado por Reforço Profundo para o tratamento de sepse, uma condição médica grave. Ele explora como técnicas avançadas de IA podem otimizar decisões terapêuticas em ambientes clínicos complexos.

Medical Treatment deep learning reinforcement learning Sepsis

RESEARCHarXiv CS.CL·21/04/2026

Reciprocal Co-Training (RCT): Coupling Gradient-Based and Non-Differentiable Models via Reinforcement Learning

Ce travail introduit un cadre de co-apprentissage réciproque qui couple un LLM avec un classificateur Random Forest via l'apprentissage par renforcement. Il crée une boucle de rétroaction itérative où chaque modèle s'améliore en utilisant les signaux de l'autre, démontrant des gains de performance constants sur des ensembles de données médicales.

Random Forests LLMs reinforcement learning machine learning

RESEARCHarXiv CS.LG·23/04/2026

DR-Venus: Towards Frontier Edge-Scale Deep Research Agents with Only 10K Open Data

DR-Venus présente un agent de recherche approfondie 4B pour le déploiement à l'échelle de la périphérie, entraîné efficacement avec seulement 10K données ouvertes. Sa méthode d'entraînement en deux étapes combine le réglage fin supervisé pour les capacités de base et l'apprentissage par renforcement pour améliorer la fiabilité d'exécution sur des tâches de recherche à long terme.

Edge AI reinforcement learning machine learning training SLMs

ARTICLEDEV.to AI·23/04/2026

Explainable Causal Reinforcement Learning for smart agriculture microgrid orchestration with zero-trust governance guarantees

Cet article décrit l'épiphanie d'un développeur alors qu'il déboguait un agent d'apprentissage par renforcement « boîte noire » qui ne parvenait pas à synchroniser des microréseaux agricoles intelligents. La prise de conscience que l'agent manquait de compréhension causale l'a conduit à explorer l'IA explicable et les frameworks d'inférence causale pour éviter les pannes de courant en cascade.

smart agriculture microgrids reinforcement learning Explainable AI

RESEARCHarXiv CS.LG·06/04/2026

From Broad Exploration to Stable Synthesis: Entropy-Guided Optimization for Autoregressive Image Generation

O artigo analisa a interação entre Chain-of-Thought (CoT) e Reinforcement Learning (RL) na geração de imagens a partir de texto (T2I) usando uma análise sistemática baseada em entropia. Ele revela que menor entropia dos tokens de imagem e do CoT textual se correlaciona com melhor qualidade de imagem, propondo a estratégia Entropy-Guided Group Relative Policy Optimization (EG-GRPO) para otimização com base na incerteza.

Optimization deep learning reinforcement learning Text-to-Image Generation

RESEARCHDEV.to AI·09/04/2026

Human-Aligned Decision Transformers for deep-sea exploration habitat design under real-time policy constraints

Este conteúdo explora uma pesquisa sobre o design de sistemas de IA que tomam decisões complexas e sequenciais em ambientes extremos, como a exploração em alto-mar. A investigação focou em integrar preferências humanas no projeto de habitats através de Decision Transformers e aprendizagem por reforço.

decision-transformers reinforcement learning Deep-sea exploration human-aligned AI

RESEARCHarXiv CS.LG·il y a 21j

A Structural Threshold in Decision Capacity Governs Collapse in Self-Play Reinforcement Learning

Cet article montre qu'un seuil dans la capacité de décision régit l'effondrement des agents d'apprentissage par renforcement en auto-apprentissage sous des perturbations asymétriques. L'élimination de toutes les décisions contingentes à portée positive entraîne un effondrement rapide, tandis que la conservation d'une seule de ces décisions empêche cet effondrement.

Decision Making reinforcement learning learning game theory

RESEARCHarXiv CS.LG·17/04/2026

Optimistic Policy Learning under Pessimistic Adversaries with Regret and Violation Guarantees

Cette recherche aborde le défi de la prise de décision dans des environnements avec des adversaires stratégiques ou des facteurs externes, où les politiques traditionnelles peuvent échouer catastrophiquement dans des contextes de sécurité critiques. Elle propose une approche d'apprentissage de politiques optimiste conçue pour tenir compte de ces interactions et fournir des garanties de regret et de violation.

reinforcement learning robust AI adversarial AI

RESEARCHarXiv CS.LG·08/04/2026

Territory Paint Wars: Diagnosing and Mitigating Failure Modes in Competitive Multi-Agent PPO

Este trabalho apresenta o ambiente Territory Paint Wars para investigar modos de falha do PPO em aprendizado por reforço multiagente competitivo. Ele identifica falhas de implementação que causam baixo desempenho e, após a correção, revela um novo problema de overfitting competitivo que prejudica a generalização.

failure modes reinforcement learning self-play PPO

RESEARCHarXiv CS.CL·23/04/2026

OThink-SRR1: Search, Refine and Reasoning with Reinforced Learning for Large Language Models

OThink-SRR1 est un cadre qui améliore les LLMs avec un processus itératif de Recherche-Affinement-Raisonnement entraîné par apprentissage par renforcement. Il résout les défis du RAG en distillant des faits pertinents à partir de documents récupérés, améliorant l'efficacité et la précision du QA multi-saut complexe.

multi-hop-qa LLMs reinforcement learning RAG

RESEARCHarXiv CS.LG·23/04/2026

Rethinking Reinforcement Fine-Tuning in LVLM: Convergence, Reward Decomposition, and Generalization

Cette recherche introduit le Processus de Décision de Markov Augmenté par Outils (TA-MDP) pour modéliser formellement la prise de décision agentique multimodale, comblant les lacunes théoriques dans le réglage fin par renforcement pour les Grands Modèles Vision-Langage (LVLM). Elle examine comment les récompenses vérifiables composites affectent la convergence de GRPO et pourquoi l'entraînement sur de petits ensembles de données se généralise à des domaines hors distribution pour les LVLM agentiques.

Theoretical AI reinforcement learning vision models large language models