← heapsort-ai

reinforcement learning

153 items

RESEARCHarXiv CS.AI·il y a 15j

Quantum Frog: Emergent Cooperation and Difficulty Scaling in a Quantized-Time Cooperative Game

Cet article présente "Quantum Frog", un jeu coopératif à deux joueurs basé sur une mécanique de temps quantifié, inspiré de Frogger. Il utilise l'apprentissage par renforcement pour analyser l'évolution de la difficulté du jeu, les politiques optimales et les stratégies de coopération émergentes.

27
RESEARCHarXiv CS.AI·il y a 9j

Uncertainty-Aware and Temporally Regulated Expert Advice in Reinforcement Learning for Autonomous Driving

Cet article propose un cadre sensible à l'incertitude pour l'apprentissage par renforcement dans la conduite autonome, utilisant les conseils d'experts pour guider l'exploration en toute sécurité tout en évitant la dépendance à long terme. Il utilise des seuils adaptatifs pour le déclenchement des conseils et une stratégie de 'commitment-cooldown' pour réguler le guidage, démontrant des performances améliorées dans les simulations CARLA.

27
RESEARCHarXiv CS.AI·il y a 16j

NeuroNL2LTL: A Neurosymbolic Framework for Natural Language Translation of Linear Temporal Logic

NeuroNL2LTL est une architecture neurosymbolique unifiant la traduction apprise et la vérification formelle pour traduire le langage naturel en Logique Temporelle Linéaire. Elle utilise un entraînement avec vérificateur dans la boucle, où les résultats de vérification servent de signaux de récompense pour l'apprentissage par renforcement, optimisant la correction formelle.

27
RESEARCHarXiv CS.LG·06/05/2026

Delay, Plateau, or Collapse: Evaluating the Impact of Systematic Verification Error on RLVR

Cet article étudie l'impact des erreurs de vérification systématiques sur l'apprentissage par renforcement avec récompenses vérifiables (RLVR), une approche visant à améliorer les capacités de raisonnement des grands modèles de langage. Contrairement aux analyses précédentes qui traitaient les erreurs comme aléatoires, cette étude montre que des erreurs systématiques peuvent amener les modèles à apprendre des comportements indésirables. Des expériences sur des tâches arithmétiques révèlent que les faux négatifs systématiques ont des effets similaires au bruit aléatoire, tandis que les faux positifs systématiques peuvent avoir des impacts plus graves.

27
RESEARCHarXiv CS.LG·06/05/2026

Generate, Filter, Control, Replay: A Comprehensive Survey of Rollout Strategies for LLM Reinforcement Learning

Cette étude propose une vue agnostique de l'optimiseur des stratégies de déploiement (rollout) pour le post-entraînement des LLM de raisonnement basés sur le RL. Elle formalise les pipelines de déploiement avec une notation unifiée et introduit la taxonomie du cycle de vie Generate-Filter-Control-Replay (GFCR), décomposant les pipelines en quatre étapes modulaires.

27
RESEARCHarXiv CS.LG·06/04/2026

Prism: Policy Reuse via Interpretable Strategy Mapping in Reinforcement Learning

O artigo apresenta PRISM, uma estrutura para Reinforcement Learning que fundamenta as decisões de agentes em conceitos discretos e causalmente validados, usando-os como interface de transferência zero-shot. Ele demonstra que esses conceitos impulsionam diretamente o comportamento do agente e que a importância de um conceito pode ser dissociada de sua frequência de uso.

27
RESEARCHarXiv CS.CL·06/04/2026

Reinforcement Learning-based Knowledge Distillation with LLM-as-a-Judge

Este artigo propõe uma estrutura de Reinforcement Learning (RL) que utiliza um LLM como juiz para gerar recompensas, permitindo a destilação de conhecimento sem a necessidade de rótulos de verdade fundamental. A abordagem demonstra ganhos substanciais de desempenho em benchmarks de raciocínio matemático, sugerindo que avaliadores baseados em LLM podem produzir sinais de treinamento eficazes.

27
RESEARCHarXiv CS.LG·06/04/2026

LLM Reasoning with Process Rewards for Outcome-Guided Steps

Este conteúdo apresenta o PROGRS, um framework para melhorar o raciocínio matemático em LLMs, combinando modelos de recompensa de processo (PRMs) com a priorização da correção do resultado final. Ele busca resolver o problema de PRMs que podem recompensar raciocínios intermediários fluentes, mas que levam a respostas incorretas, otimizando o aprendizado com feedback mais alinhado.

27
RESEARCHarXiv CS.AI·il y a 20j

SOLAR: A Self-Optimizing Open-Ended Autonomous Agent for Lifelong Learning and Continual Adaptation

SOLAR est un agent IA autonome conçu pour surmonter les défis des grands modèles de langage dans des environnements dynamiques, permettant l'apprentissage continu et l'adaptation constante. Il utilise le méta-apprentissage au niveau des paramètres et l'apprentissage par renforcement multi-niveaux pour s'auto-améliorer et découvrir des stratégies d'adaptation.

27
RESEARCHarXiv CS.AI·il y a 20j

Mahjax: A GPU-Accelerated Mahjong Simulator for Reinforcement Learning in JAX

Mahjax est un nouvel environnement Riichi Mahjong entièrement vectorisé implémenté en JAX, conçu pour permettre une parallélisation à grande échelle sur GPU pour la recherche en apprentissage par renforcement. Il facilite l'apprentissage tabula rasa et comprend un outil de visualisation de haute qualité pour le débogage des agents entraînés.

27