← heapsort-ai

reinforcement learning

154 items

RESEARCHarXiv CS.AI·15/04/2026

Self-Monitoring Benefits from Structural Integration: Lessons from Metacognition in Continuous-Time Multi-Timescale Agents

Cette étude examine l'utilité des capacités d'auto-surveillance (métacognition, auto-prédiction) chez les agents d'apprentissage par renforcement, constatant qu'elles n'offrent aucun bénéfice significatif. Les modules implémentés se sont effondrés vers des sorties quasi constantes, indiquant l'inefficacité des mécanismes testés.

27
RESEARCHarXiv CS.AI·15/04/2026

When to Forget: A Memory Governance Primitive

Cet article propose une nouvelle métrique, Memory Worth (MW), pour régir la qualité de la mémoire dans les systèmes d'agents, décidant quelles mémoires fiabiliser, supprimer ou déprécier. MW utilise un système à deux compteurs par mémoire qui suit les co-occurrences avec des résultats réussis ou échoués, convergeant vers la probabilité conditionnelle de succès d'une tâche.

27
RESEARCHarXiv CS.LG·28/04/2026

KARL: Mitigating Hallucinations in LLMs via Knowledge-Boundary-Aware Reinforcement Learning

KARL est un nouveau cadre conçu pour atténuer les hallucinations dans les grands modèles linguistiques en leur permettant de s'abstenir de manière appropriée des questions dépassant leurs connaissances. Il y parvient grâce à une récompense sensible aux limites de la connaissance qui estime dynamiquement le savoir du modèle et à une stratégie d'entraînement RL en deux étapes qui prévient la prudence excessive.

27
RESEARCHarXiv CS.AI·13/04/2026

RAMP: Hybrid DRL for Online Learning of Numeric Action Models

RAMP propose une stratégie inédite pour l'apprentissage en ligne de modèles d'action de planification numérique via des interactions avec l'environnement, intégrant le DRL, l'apprentissage de modèles d'action et la planification. Cela forme une boucle de rétroaction positive où la politique de RL collecte des données pour affiner le modèle d'action, tandis que le planificateur génère des plans pour poursuivre l'entraînement de la politique de RL.

27
RESEARCHarXiv CS.LG·14/04/2026

Belief-State RWKV for Reinforcement Learning under Partial Observability

Cet article propose Belief-State RWKV, une formulation plus robuste du RL où l'état récurrent est explicitement interprété comme un état de croyance. La méthode maintient un état compact conscient de l'incertitude, permettant aux politiques de dépendre à la fois de la mémoire et de la confiance dans des environnements partiellement observés.

27
RESEARCHarXiv CS.LG·14/04/2026

A Comparative Theoretical Analysis of Entropy Control Methods in Reinforcement Learning

Cet article propose une analyse théorique comparative des stratégies de contrôle d'entropie en apprentissage par renforcement, comparant la régularisation traditionnelle et un nouveau mécanisme basé sur la covariance pour l'entraînement des LLM. Il établit un cadre unifié, montrant que les méthodes basées sur la covariance atteignent une impartialité asymptotique en régularisant sélectivement, contrairement aux méthodes traditionnelles qui introduisent un biais persistant.

27
RESEARCHarXiv CS.LG·09/04/2026

RAGEN-2: Reasoning Collapse in Agentic RL

Este estudo introduz o conceito de 'colapso de template', uma falha em agentes LLM de múltiplas interações onde a resposta se torna agnóstica à entrada, mesmo com entropia estável. Propõe a Informação Mútua (MI) como uma métrica superior à entropia para diagnosticar a qualidade do raciocínio, correlacionando-se mais fortemente com o desempenho final.

27
RESEARCHarXiv CS.CL·27/04/2026

Outcome Rewards Do Not Guarantee Verifiable or Causally Important Reasoning

Cet article examine si les récompenses de résultat dans l'apprentissage par renforcement pour le raisonnement en chaîne de pensée garantissent un raisonnement vérifiable ou causalement important dans les LLM. Introduisant les métriques CIR et SR, les auteurs constatent que le RLVR améliore la précision, mais pas toujours le CIR ou le SR, et qu'un léger SFT peut y remédier.

27
RESEARCHarXiv CS.AI·09/05/2026

From History to State: Constant-Context Skill Learning for LLM Agents

Cet article propose l'apprentissage des compétences à contexte constant, un nouveau cadre pour les agents LLM afin de gérer les flux de travail récurrents plus efficacement. Il aborde les défis de confidentialité, de coût et de capacité en apprenant des procédures réutilisables dans des modules de famille de tâches et en conditionnant l'inférence sur un bloc d'état compact. Son efficacité est démontrée sur des benchmarks tels qu'ALFWorld, WebShop et SciWorld.

27
RESEARCHarXiv CS.CL·27/04/2026

Incentivizing Neuro-symbolic Language-based Reasoning in VLMs via Reinforcement Learning

Ce travail explore le raisonnement en langage neuro-symbolique dans les VLMs, utilisant l'apprentissage par renforcement pour améliorer les capacités analytiques et l'efficacité. Il a obtenu une augmentation de 3,33% de la précision sur un ensemble de données vision-langage et une réduction de 75% des tokens de raisonnement.

27
RESEARCHarXiv CS.CL·08/04/2026

Document Optimization for Black-Box Retrieval via Reinforcement Learning

Este artigo de pesquisa propõe uma nova abordagem para otimização de documentos, transformando-os para melhor alinhamento com sistemas de recuperação via Reinforcement Learning (GRPO), utilizando melhorias de ranking como recompensa. O método, aplicável a retrievers de caixa preta, demonstrou ganhos em tarefas de recuperação de código e documentos visuais.

27
RESEARCHarXiv CS.LG·09/04/2026

Probabilistic Language Tries: A Unified Framework for Compression, Decision Policies, and Execution Reuse

Este artigo apresenta Probabilistic Language Tries (PLTs), uma representação unificada que explicita a estrutura de prefixo de qualquer modelo generativo sobre sequências. PLTs atuam como compressor lossless ideal, representação de política para problemas de decisão sequencial (como jogos e robótica) e índice de memoização para reuso de execução, com um teorema chave sobre caching guiado por prior.

27
RESEARCHarXiv CS.AI·04/05/2026

TUR-DPO: Topology- and Uncertainty-Aware Direct Preference Optimization

TUR-DPO est une nouvelle variante de l'Optimisation par Préférence Directe (DPO) sensible à la topologie et à l'incertitude, visant à mieux aligner les grands modèles de langage (LLMs) avec les préférences humaines. Cette méthode récompense la manière dont les réponses sont dérivées, et pas seulement leur contenu, en intégrant des topologies de raisonnement et des signaux d'incertitude.

27
RESEARCHarXiv CS.AI·07/05/2026

Regularized Centered Emphatic Temporal Difference Learning

Cet article présente l'apprentissage par différence temporelle emphatique régularisée (RETD) pour aborder le compromis entre stabilité, géométrie de projection et variance dans l'apprentissage par différence temporelle hors politique. Il propose une méthode qui régularise la récursion de centrage auxiliaire pour maintenir la définie positivité de la matrice clé ETD et prouve sa convergence.

27
RESEARCHarXiv CS.CL·07/05/2026

Adapt to Thrive! Adaptive Power-Mean Policy Optimization for Improved LLM Reasoning

Cette recherche présente l'Optimisation Adaptative de Politique de Moyenne de Puissance (APMPO) pour améliorer les capacités de raisonnement des Grands Modèles Linguistiques (LLMs) via RLVR. APMPO combine un objectif de moyenne de puissance généralisée et un écrêtage adaptatif par rétroaction pour optimiser la dynamique d'apprentissage et les performances.

27
RESEARCHarXiv CS.LG·il y a 22j

Reducing Credit Assignment Variance via Counterfactual Reasoning Paths

Cette recherche aborde le défi de la mauvaise attribution de crédit dans l'apprentissage par renforcement pour le raisonnement en plusieurs étapes avec les grands modèles de langage, causée par des récompenses terminales éparses entraînant une variance de gradient élevée et une formation instable. Elle propose un cadre d'attribution de crédit basé sur la comparaison contrefactuelle et l'optimisation implicite de la politique de comportement (IBPO) pour créer des signaux d'apprentissage sensibles aux étapes, améliorant considérablement la stabilité et les performances de l'entraînement.

27
RESEARCHarXiv CS.LG·il y a 8j

World Models: A Comprehensive Survey of Architectures, Methodologies, Reasoning Paradigms, and Applications

Cette étude aborde le manque de cadre unifié pour les modèles de monde, des simulateurs internes utilisés en IA pour la prédiction, la planification et le raisonnement. Elle propose une taxonomie multi-axes organisant leurs divers aspects tels que l'architecture, la méthodologie, les paradigmes de raisonnement et les applications dans des domaines comme l'apprentissage par renforcement et la robotique.

27
RESEARCHarXiv CS.LG·il y a 8j

From Demonstrations to Rewards: Test-Time Prompt Optimization for VLM Reward Models

Des chercheurs proposent Demo2Reward, une technique d'adaptation en temps de test pour optimiser les modèles de récompense de Vision-Langage (VLMs) en robotique. Elle utilise quelques démonstrations pour réduire les faux positifs tout en préservant les vrais positifs, sans nécessiter d'entraînement supplémentaire du modèle.

27
RESEARCHarXiv CS.LG·il y a 26j

Beyond Mode-Seeking RL: Trajectory-Balance Post-Training for Diffusion Language Models

Cet article présente TraFL, une nouvelle approche de post-entraînement pour les modèles de langage de diffusion qui s'attaque au "blocage de trajectoire" observé dans les méthodes de maximisation de récompense. TraFL, un objectif d'équilibre de trajectoire, surpasse les autres méthodes sur les benchmarks de raisonnement mathématique et de génération de code.

27