← heapsort-ai

reinforcement learning

153 items

RESEARCHarXiv CS.LG·16/04/2026

Design Conditions for Intra-Group Learning of Sequence-Level Rewards: Token Gradient Cancellation

Cet article présente une condition nécessaire pour la conception d'algorithmes d'apprentissage intra-groupe en Reinforcement Learning, exigeant que les objectifs maintiennent l'échangeabilité des gradients pour prévenir la dérive. Il propose des transformations minimales pour restaurer cette structure d'annulation, ce qui stabilise l'entraînement et améliore l'efficacité des échantillons.

29
RESEARCHarXiv CS.LG·16/04/2026

Adaptive Memory Crystallization for Autonomous AI Agent Learning in Dynamic Environments

Cette recherche introduit la Cristallisation Adaptative de la Mémoire (AMC), une nouvelle architecture de mémoire pour permettre aux agents d'IA autonomes de consolider progressivement leurs expériences sans oublier les connaissances antérieures. L'AMC modélise la mémoire comme un processus continu de cristallisation sur une hiérarchie en trois phases, inspirée par la théorie du marquage et de la capture synaptique.

29
DOCAWS Machine Learning Blog·07/05/2026

Overcoming reward signal challenges: Verifiable rewards-based reinforcement learning with GRPO on SageMaker AI

Ce billet décrit la mise en œuvre de l'apprentissage par renforcement basé sur des récompenses vérifiables (RLVR) pour améliorer les performances d'entraînement en introduisant la vérification et la transparence des signaux de récompense. Il aborde des techniques comme GRPO et les exemples de few-shot, illustrés avec l'ensemble de données GSM8K pour améliorer la précision de la résolution de problèmes mathématiques.

29
RESEARCHarXiv CS.LG·il y a 17j

HealthCraft: A Reinforcement Learning Safety Environment for Emergency Medicine

L'article présente HealthCraft, un environnement public d'apprentissage par renforcement pour évaluer la sécurité des modèles de langage de pointe en médecine d'urgence. Il se concentre sur la sécurité au niveau de la trajectoire, l'utilisation abusive des outils et la pression clinique, construit sur un état du monde FHIR R4 et offrant 195 tâches pour une évaluation complète.

29
RESEARCHarXiv CS.LG·06/04/2026

OPRIDE: Offline Preference-based Reinforcement Learning via In-Dataset Exploration

O artigo aborda a baixa eficiência de consulta em Aprendizado por Reforço Baseado em Preferências (PbRL) offline, propondo o algoritmo OPRIDE. Este algoritmo visa melhorar a eficiência de consulta através de uma estratégia de exploração informativa e um mecanismo de agendamento de desconto para mitigar a superotimização da função de recompensa.

29
RESEARCHarXiv CS.LG·il y a 27j

$\xi$-DPO: Direct Preference Optimization via Ratio Reward Margin

Cet article présente -DPO, une optimisation de préférence directe via une marge de récompense par ratio, afin de résoudre le défi de l'ajustement des hyperparamètres dans SimPO. La recherche analyse SimPO et reformule l'objectif de préférence pour améliorer l'interprétabilité sur des ensembles de données avec différentes structures d'écart de récompense.

29
RESEARCHarXiv CS.LG·il y a 20j

ReCrit: Transition-Aware Reinforcement Learning for Scientific Critic Reasoning

ReCrit est un nouveau cadre d'apprentissage par renforcement conçu pour améliorer la performance des grands modèles linguistiques dans l'interaction critique scientifique. Il aborde le problème des LLM qui abandonnent des solutions correctes après une critique de l'utilisateur, en se concentrant sur les transitions de correction entre les tours et en catégorisant les comportements tels que la correction, la sycophanie et la robustesse.

29
RESEARCHDEV.to AI·14/04/2026

Adaptive Neuro-Symbolic Planning for deep-sea exploration habitat design in hybrid quantum-classical pipelines

Un agent d'apprentissage par renforcement chargé d'optimiser la conception d'un habitat sous-marin a produit un design impossible, soulignant les limites de l'IA purement sub-symbolique lorsque les contraintes symboliques sont faiblement appliquées. Cette expérience a orienté la recherche vers la planification neuro-symbolique adaptative pour les conceptions critiques.

28
RESEARCHarXiv CS.CL·21/04/2026

Reciprocal Co-Training (RCT): Coupling Gradient-Based and Non-Differentiable Models via Reinforcement Learning

Ce travail introduit un cadre de co-apprentissage réciproque qui couple un LLM avec un classificateur Random Forest via l'apprentissage par renforcement. Il crée une boucle de rétroaction itérative où chaque modèle s'améliore en utilisant les signaux de l'autre, démontrant des gains de performance constants sur des ensembles de données médicales.

28
RESEARCHarXiv CS.LG·23/04/2026

DR-Venus: Towards Frontier Edge-Scale Deep Research Agents with Only 10K Open Data

DR-Venus présente un agent de recherche approfondie 4B pour le déploiement à l'échelle de la périphérie, entraîné efficacement avec seulement 10K données ouvertes. Sa méthode d'entraînement en deux étapes combine le réglage fin supervisé pour les capacités de base et l'apprentissage par renforcement pour améliorer la fiabilité d'exécution sur des tâches de recherche à long terme.

28
ARTICLEDEV.to AI·23/04/2026

Explainable Causal Reinforcement Learning for smart agriculture microgrid orchestration with zero-trust governance guarantees

Cet article décrit l'épiphanie d'un développeur alors qu'il déboguait un agent d'apprentissage par renforcement « boîte noire » qui ne parvenait pas à synchroniser des microréseaux agricoles intelligents. La prise de conscience que l'agent manquait de compréhension causale l'a conduit à explorer l'IA explicable et les frameworks d'inférence causale pour éviter les pannes de courant en cascade.

28
RESEARCHarXiv CS.LG·06/04/2026

From Broad Exploration to Stable Synthesis: Entropy-Guided Optimization for Autoregressive Image Generation

O artigo analisa a interação entre Chain-of-Thought (CoT) e Reinforcement Learning (RL) na geração de imagens a partir de texto (T2I) usando uma análise sistemática baseada em entropia. Ele revela que menor entropia dos tokens de imagem e do CoT textual se correlaciona com melhor qualidade de imagem, propondo a estratégia Entropy-Guided Group Relative Policy Optimization (EG-GRPO) para otimização com base na incerteza.

28
RESEARCHDEV.to AI·09/04/2026

Human-Aligned Decision Transformers for deep-sea exploration habitat design under real-time policy constraints

Este conteúdo explora uma pesquisa sobre o design de sistemas de IA que tomam decisões complexas e sequenciais em ambientes extremos, como a exploração em alto-mar. A investigação focou em integrar preferências humanas no projeto de habitats através de Decision Transformers e aprendizagem por reforço.

28
RESEARCHarXiv CS.LG·il y a 21j

A Structural Threshold in Decision Capacity Governs Collapse in Self-Play Reinforcement Learning

Cet article montre qu'un seuil dans la capacité de décision régit l'effondrement des agents d'apprentissage par renforcement en auto-apprentissage sous des perturbations asymétriques. L'élimination de toutes les décisions contingentes à portée positive entraîne un effondrement rapide, tandis que la conservation d'une seule de ces décisions empêche cet effondrement.

28
RESEARCHarXiv CS.LG·17/04/2026

Optimistic Policy Learning under Pessimistic Adversaries with Regret and Violation Guarantees

Cette recherche aborde le défi de la prise de décision dans des environnements avec des adversaires stratégiques ou des facteurs externes, où les politiques traditionnelles peuvent échouer catastrophiquement dans des contextes de sécurité critiques. Elle propose une approche d'apprentissage de politiques optimiste conçue pour tenir compte de ces interactions et fournir des garanties de regret et de violation.

28
RESEARCHarXiv CS.LG·23/04/2026

Rethinking Reinforcement Fine-Tuning in LVLM: Convergence, Reward Decomposition, and Generalization

Cette recherche introduit le Processus de Décision de Markov Augmenté par Outils (TA-MDP) pour modéliser formellement la prise de décision agentique multimodale, comblant les lacunes théoriques dans le réglage fin par renforcement pour les Grands Modèles Vision-Langage (LVLM). Elle examine comment les récompenses vérifiables composites affectent la convergence de GRPO et pourquoi l'entraînement sur de petits ensembles de données se généralise à des domaines hors distribution pour les LVLM agentiques.

28