← heapsort-ai

reinforcement learning

153 items

RESEARCHarXiv CS.CL·il y a 27j

ReAD: Reinforcement-Guided Capability Distillation for Large Language Models

ReAD propose un cadre de distillation de capacités guidé par le renforcement pour les Grands Modèles de Langage (LLMs), visant à compresser ces modèles tout en préservant les compétences essentielles pour des tâches spécifiques. Il tient compte explicitement de l'interdépendance des capacités pour optimiser l'utilisation du budget de tokens et prévenir la dégradation d'autres compétences utiles.

28
RESEARCHarXiv CS.LG·il y a 12j

Personalized Observation Normalization for Federated Reinforcement Learning in Simulation Environments with Heterogeneity

Cet article présente une méthode de normalisation d'observation personnalisée (PON) pour l'apprentissage par renforcement fédéré (FedRL), visant à surmonter les défis des environnements hétérogènes. Le PON permet à chaque agent de normaliser localement les entrées d'état, assurant une mise à l'échelle cohérente et améliorant les performances dans les tâches MuJoCo.

28
RESEARCHarXiv CS.AI·13/04/2026

SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks

Le SPPO (Sequence-Level PPO) remédie aux limites du PPO standard dans les tâches de raisonnement à long terme des LLM en reformulant le processus comme un problème de Bandit Contextuel au Niveau de la Séquence. Cette approche utilise une fonction de valeur scalaire découplée pour dériver des signaux d'avantage à faible variance, améliorant l'efficacité de l'échantillon et la stabilité sans les coûts de calcul élevés.

28
RESEARCHarXiv CS.AI·16/04/2026

Exploration and Exploitation Errors Are Measurable for Language Model Agents

Cette recherche présente une méthode pour quantifier systématiquement les erreurs d'exploration et d'exploitation chez les agents de Modèles de Langage (LM), répondant au défi de l'évaluation sans accès aux politiques internes. Elle propose des environnements contrôlables et une métrique agnostique à la politique pour mesurer ces erreurs, révélant des lacunes même chez les LMs de pointe.

28
RESEARCHarXiv CS.LG·08/04/2026

Enhancing sample efficiency in reinforcement-learning-based flow control: replacing the critic with an adaptive reduced-order model

Este trabalho introduz uma estrutura de aprendizado por reforço baseada em modelo de ordem reduzida (ROM) adaptativo para controle de fluxo ativo. Ele visa melhorar a eficiência de amostragem do DRL, substituindo o crítico por um ROM que estima gradientes e se atualiza continuamente com novos dados.

28
ARTICLEDEV.to AI·19/04/2026

Meta-Optimized Continual Adaptation for bio-inspired soft robotics maintenance with zero-trust governance guarantees

L'auteur a constaté une dégradation significative d'un robot souple bio-inspiré, soulignant l'incapacité de l'apprentissage par renforcement standard à gérer les écarts dynamiques entre simulation et réalité. Cela a conduit à une approche d'adaptation continue méta-optimisée pour la maintenance, intégrant la gouvernance zéro-confiance.

28
RESEARCHDEV.to AI·il y a 27j

Meta-Optimized Continual Adaptation for smart agriculture microgrid orchestration during mission-critical recovery windows

Le texte traite de l'échec des modèles d'IA statiques dans des environnements dynamiques et imprévisibles, illustré par la défaillance d'un agent de RL lors d'une panne de courant dans un micro-réseau agricole intelligent. Cet incident critique a motivé l'exploration de l'adaptation continue méta-optimisée pour la résilience du système.

28
RESEARCHarXiv CS.LG·il y a 5j

Position: Deployed Reinforcement Learning should be Continual

Cet article de position soutient que les agents d'apprentissage par renforcement (RL) déployés devraient s'engager dans un apprentissage continu plutôt que dans un paradigme d'entraînement puis de correction. Il identifie quatre sources de non-stationnarité après le déploiement, soulignant la nécessité pour les agents de s'adapter continuellement pour atteindre des performances optimales dans des scénarios du monde réel.

28
RESEARCHarXiv CS.LG·il y a 5j

Self-Distilled Policy Gradient

Cet article présente le Self-Distilled Policy Gradient (SDPG), un nouveau cadre qui améliore l'apprentissage par renforcement à récompense clairsemée grâce à l'autodistillation on-policy. Le SDPG intègre des avantages de vérificateur relatifs au groupe, une autodistillation exacte du vocabulaire complet et une régularisation KL, démontrant une stabilité et des performances améliorées par rapport aux références existantes.

28
RESEARCHarXiv CS.AI·il y a 11j

Behavior-Induced Mirror-Prox Temporal-Difference Learning for Faster Off-Policy Prediction

Cet article propose STHTD-MP, une méthode de différence temporelle Mirror-Prox induite par le comportement pour une prédiction hors politique plus rapide. Elle remplace la métrique de covariance par la partie symétrique de la matrice de Bellman de la politique de comportement, offrant une géométrie de mise à jour plus informative.

28
RESEARCHarXiv CS.AI·17/04/2026

GFT: From Imitation to Reward Fine-Tuning with Unbiased Group Advantages and Dynamic Coefficient Rectification

Ce travail présente le Group Fine-Tuning (GFT), un cadre unifié de post-entraînement pour les grands modèles de langage. Il aborde les limites intrinsèques du fine-tuning supervisé (SFT), telles que la dépendance à un chemin unique et l'effondrement de l'entropie, par l'apprentissage des avantages de groupe et la rectification dynamique des coefficients.

27
RESEARCHarXiv CS.LG·22/04/2026

Curiosity-Critic: Cumulative Prediction Error Improvement as a Tractable Intrinsic Reward for World Model Training

Curiosity-Critic introduit une récompense intrinsèque pour l'entraînement des modèles de monde, en se concentrant sur l'amélioration de l'erreur de prédiction cumulative plutôt que sur les transitions actuelles. Il utilise un critique appris pour estimer une base d'erreur asymptotique, séparant efficacement les erreurs épistémiques des erreurs aléatoires et orientant l'exploration vers les transitions apprenables.

27
RESEARCHarXiv CS.AI·22/04/2026

ARES: Adaptive Red-Teaming and End-to-End Repair of Policy-Reward System

ARES introduit un cadre pour traiter les faiblesses systémiques dans les LLMs alignés par RLHF, où les modèles de récompense imparfaits ne parviennent pas à pénaliser les comportements dangereux. Il utilise un "Safety Mentor" pour un red-teaming adaptatif afin de découvrir et d'atténuer ces doubles vulnérabilités à la fois dans le LLM et son modèle de récompense.

27
ARTICLEDEV.to AI·il y a 20j

Continual Harness: The Gemini Pokémon Agent That Rewrites Its Own Loop

Le travail sur le Continual Harness explore l'idée qu'un agent d'IA, tel que Gemini Plays Pokémon, édite son propre code de support ou 'harness' en temps réel. Cela permet au modèle d'affiner ses interactions et ses outils avec l'environnement, plutôt que de nécessiter une intervention humaine pour les ajustements. L'innovation permet à l'agent d'apprendre et de s'adapter dynamiquement pendant son exécution, améliorant ainsi ses performances.

27
RESEARCHarXiv CS.AI·13/04/2026

StaRPO: Stability-Augmented Reinforcement Policy Optimization

StaRPO est un nouveau cadre d'apprentissage par renforcement conçu pour améliorer la cohérence logique et la structure des grands modèles de langage dans les tâches de raisonnement complexes. Il intègre explicitement des métriques de stabilité, telles que la fonction d'autocorrélation et l'efficacité du chemin, pour évaluer la cohérence locale et l'orientation globale du processus de raisonnement.

27
RESEARCHarXiv CS.AI·25/04/2026

Co-Evolving LLM Decision and Skill Bank Agents for Long-Horizon Tasks

Cet article présente COSPLAY, un cadre de co-évolution visant à améliorer la prise de décision des LLM dans des environnements interactifs à long terme. Il permet à un agent LLM de récupérer des compétences d'une banque de compétences apprenable, tandis qu'un pipeline d'agent découvre et retient de nouvelles compétences à partir de ses propres expériences non étiquetées.

27
RESEARCHarXiv CS.LG·22/04/2026

Easy Samples Are All You Need: Self-Evolving LLMs via Data-Efficient Reinforcement Learning

Cette recherche présente EasyRL, une nouvelle approche d'apprentissage par renforcement économe en données pour les LLMs auto-évolutifs, conçue pour surmonter les coûts d'annotation élevés et les problèmes de performance des méthodes existantes. Inspiré par la théorie de l'apprentissage cognitif, EasyRL intègre le transfert de connaissances de données étiquetées faciles avec une stratégie progressive de diviser pour régner pour les données non étiquetées difficiles.

27
RESEARCHarXiv CS.AI·il y a 26j

Macro-Action Based Multi-Agent Instruction Following through Value Cancellation

Cette recherche introduit Macro-Action Value Correction for Instruction Compliance (MAVIC) pour résoudre les incohérences dans l'apprentissage par renforcement multi-agents lorsque des instructions externes interrompent des objectifs à long terme. MAVIC modifie les sauvegardes de Bellman aux limites des instructions pour permettre une estimation de valeur cohérente sous commutation stochastique d'instructions au sein d'une politique unifiée.

27
RESEARCHarXiv CS.LG·il y a 21j

When Actions Disappear: Adversarial Action Removal in Self-Play Reinforcement Learning

Cette recherche étudie le masquage d'actions adversaire dans l'apprentissage par renforcement en auto-apprentissage, où un attaquant supprime sélectivement des actions légales de l'ensemble d'actions d'une victime. L'étude a révélé que le masquage appris cause des dommages considérablement plus importants que le masquage aléatoire, identifiant la disponibilité des actions comme une surface de robustesse distincte dans le RL en auto-apprentissage.

27