← heapsort-ai

reinforcement learning

153 items

RESEARCHarXiv CS.CL·07/05/2026

Free Energy-Driven Reinforcement Learning with Adaptive Advantage Shaping for Unsupervised Reasoning in LLMs

FREIA est un nouvel algorithme d'apprentissage par renforcement qui améliore les LLM pour le raisonnement non supervisé, en s'attaquant au manque d'adaptabilité des méthodes existantes. Il utilise la Récompense Guidée par l'Énergie Libre (FER) pour équilibrer le consensus et l'exploration, et la Modélisation Adaptative de l'Avantage (AAS) pour ajuster les signaux d'apprentissage. FREIA surpasse les méthodes non supervisées de base dans diverses tâches de raisonnement, notamment en mathématiques.

27
RESEARCHarXiv CS.CL·il y a 26j

Dual Hierarchical Dialogue Policy Learning for Legal Inquisitive Conversational Agents

Cette recherche introduit des Agents Conversationnels Inquisiteurs (ICAs) conçus pour extraire proactivement des informations, spécifiquement adaptés aux plaidoiries de la Cour Suprême des États-Unis. Elle propose un cadre d'Apprentissage par Renforcement Hiérarchique Double pour coordonner la gestion stratégique du dialogue et la génération d'énoncés fins, surpassant significativement les références.

27
RESEARCHarXiv CS.LG·il y a 22j

Language Game: Talking to Non-Human Systems

Cet article explore la communication directe avec des systèmes non-humains (tels que les réseaux de régulation génique ou les champignons) reconnus comme des substrats de calcul, allant au-delà des LLM agissant comme intermédiaires. Il propose une approche de "jeu de langage" utilisant l'apprentissage par renforcement pour permettre à ces systèmes de "parler de leur propre voix".

27
RESEARCHarXiv CS.CL·il y a 8j

CSRP: Chain-of-Thought Reasoning for Chinese Text Correction via Reinforcement Learning with Efficiency-Aware Rewards

Cet article propose CSRP, un cadre en trois étapes pour la correction des erreurs grammaticales chinoises (CGEC) utilisant des grands modèles de langage (LLM). CSRP aborde les défis des modèles génériques et l'optimisation des métriques avec un pré-entraînement continu, un SFT Chain-of-Thought et une optimisation de politique avec des récompenses sensibles à l'efficacité qui pénalisent les modifications inutiles, atteignant des performances de pointe sur le benchmark NACGEC.

27
RESEARCHarXiv CS.AI·11/05/2026

Weblica: Scalable and Reproducible Training Environments for Visual Web Agents

Cet article présente Weblica, un cadre pour construire des environnements web reproductibles et évolutifs pour les agents web visuels. Il utilise la mise en cache au niveau HTTP et la synthèse d'environnement basée sur les LLM pour former des agents RL sur des milliers de tâches diverses, surpassant les références sur les benchmarks de navigation web.

27
RESEARCHarXiv CS.LG·il y a 22j

Investigating Action Encodings in Recurrent Neural Networks in Reinforcement Learning

Cet article examine comment les informations d'action peuvent être intégrées dans la fonction de mise à jour d'état d'une cellule récurrente au sein des réseaux neuronaux récurrents (RNN) pour l'apprentissage par renforcement (RL). Les auteurs discutent plusieurs choix et évaluent empiriquement les architectures résultantes sur des domaines illustratifs.

27
RESEARCHarXiv CS.LG·il y a 28j

TMPO: Trajectory Matching Policy Optimization for Diverse and Efficient Diffusion Alignment

Le Trajectory Matching Policy Optimization (TMPO) s'attaque au piratage des récompenses dans l'apprentissage par renforcement pour les modèles de diffusion, qui entraîne souvent un effondrement des modes et dégrade la diversité générative. Il remplace la maximisation de la récompense scalaire par l'appariement de la distribution de récompense au niveau de la trajectoire, en utilisant un objectif de Softmax Trajectory Balance pour aligner les probabilités de la politique avec une distribution de Boltzmann induite par la récompense.

27
RESEARCHarXiv CS.AI·il y a 8j

MindGames Arena Generalization Track: In2AI Solution with Delayed Per-Step Reward Attribution

Cette recherche introduit une nouvelle méthode d'attribution de récompense par étape différée pour entraîner des agents de modèles de langage dans des interactions stratégiques multi-agents. Elle aborde le défi des résultats entrelacés en calculant les récompenses à la fin de l'épisode et en les propageant, permettant un apprentissage par renforcement stable et économe en échantillons.

27
RESEARCHarXiv CS.CL·il y a 27j

Correct Answers from Sound Reasoning: Verifiable Process Supervision for Language Models

Cet article propose la Supervision de Processus Vérifiable (VPS), un cadre de post-entraînement visant à optimiser simultanément la précision de la prédiction et la qualité du raisonnement des modèles linguistiques. Le VPS utilise un réglage fin supervisé pour induire un format de raisonnement structuré, évaluant les affirmations intermédiaires par rapport à des signaux de vérité terrain avec une pondération adaptative des récompenses.

27
RESEARCHarXiv CS.AI·il y a 23j

ICRL: Learning to Internalize Self-Critique with Reinforcement Learning

ICRL propose un nouveau cadre pour entraîner les agents de grands modèles linguistiques à internaliser l'auto-critique, transformant le feedback en capacité de résolution de problèmes sans assistance. Il entraîne conjointement un solveur et un critique à partir d'un noyau partagé, récompensant le critique pour un feedback exploitable afin de favoriser l'auto-amélioration itérative.

27
RESEARCHarXiv CS.LG·il y a 27j

Multi-Rollout On-Policy Distillation via Peer Successes and Failures

L'article introduit la Distillation On-Policy Multi-Rollout (MOPD), un cadre qui utilise le groupe de déploiements locaux d'un étudiant pour construire des signaux d'enseignant plus informatifs pour le post-apprentissage des LLM. La MOPD conditionne l'enseignant sur les déploiements réussis et échoués, exploitant les réussites pour les schémas de raisonnement valides et les échecs pour éviter les erreurs plausibles.

27
RESEARCHarXiv CS.LG·il y a 27j

Learning When to Act: Communication-Efficient Reinforcement Learning via Run-Time Assurance

Cet article présente une approche d'apprentissage par renforcement économe en communication, où une seule politique apprend à la fois les entrées de commande et les décisions de synchronisation, protégée par un bouclier de sécurité Lyapunov ponctuel. Une couche d'assurance d'exécution annule la politique pour fournir des garanties de sécurité plus strictes et obtenir des intervalles inter-échantillons moyens nettement plus élevés sur divers systèmes.

27
RESEARCHarXiv CS.AI·il y a 28j

RankQ: Offline-to-Online Reinforcement Learning via Self-Supervised Action Ranking

RankQ est un objectif d'apprentissage par renforcement hors ligne-vers-en ligne conçu pour améliorer l'efficacité des échantillons en exploitant des ensembles de données pré-collectés. Il résout les problèmes de critiques imprécis et de couverture limitée des données en utilisant une perte de classement multi-termes auto-supervisée, qui impose un ordre d'action structuré et oriente la fonction Q vers des actions de meilleure qualité.

27
RESEARCHarXiv CS.AI·il y a 27j

State-Centric Decision Process

Le Processus de Décision Centré sur l'État (SDP) est un nouveau cadre qui pallie le manque de structure d'exécution dans les environnements linguistiques, tels que les navigateurs web, qui émettent du texte brut plutôt que des états. Il permet à un agent de construire les entrées MDP manquantes, comme l'espace d'états et les transitions certifiées, en agissant et en vérifiant les observations par rapport à des prédicats en langage naturel.

27
RESEARCHarXiv CS.AI·il y a 23j

SDOF: Taming the Alignment Tax in Multi-Agent Orchestration with State-Constrained Dispatch

Cet article présente SDOF, un framework qui traite l'exécution multi-agent comme une machine à états contrainte pour faire respecter les règles des processus métier. Il intègre un routeur d'intention entraîné par RLHF et un répartiteur conscient de l'état, surpassant GPT-4o sur un benchmark de routage adversarial dans un système de recrutement.

27
RESEARCHarXiv CS.LG·il y a 21j

PROWL: Prioritized Regret-Driven Optimization for World Model Learning

PROWL introduit un programme adversarial contraint par KL où une politique expose des trajectoires à forte erreur d'un modèle du monde basé sur la diffusion. Cette méthode améliore la robustesse du modèle en se concentrant sur les transitions rares et critiques pour l'interaction, transformant les échecs en un signal d'entraînement stable sans dériver vers l'exploitation hors distribution.

27
RESEARCHarXiv CS.AI·il y a 12j

Behavior-Aware Auxiliary Corrections for Off-Policy Temporal-Difference Prediction

Cet article propose des corrections auxiliaires conscientes du comportement pour la prédiction de la différence temporelle hors politique, visant à stabiliser l'apprentissage TD avec approximation de fonction. Il remplace la matrice auxiliaire TDC par la matrice de Bellman comportementale pour développer BA-TDC et BA-TDRC, fournissant un modèle pour la conception de la géométrie auxiliaire dans l'approximation de valeur des réseaux neuronaux.

27