← heapsort-ai

reinforcement learning

153 items

RESEARCHarXiv CS.CL·il y a 14j

RICE-PO: Turning Retrieval Interactions into Credit Signals for Reasoning Agents

RICE-PO est un nouveau cadre d'optimisation de politique sans critique qui s'attaque au défi d'attribution de crédit dans les agents linguistiques interactifs. Il convertit les interactions de récupération en signaux d'apprentissage localisés, évaluant les actions exécutables et propageant le crédit aux étapes de raisonnement latentes.

27
RESEARCHDEV.to AI·26/04/2026

RecoGym: A Reinforcement Learning Environment for the problem of ProductRecommendation in Online Advertising

RecoGym est un environnement d'apprentissage par renforcement conçu pour simuler les problèmes de recommandation de produits dans la publicité en ligne. Il offre une plateforme aux chercheurs et aux praticiens pour tester et développer de nouveaux algorithmes de RL pour les systèmes de recommandation.

27
RESEARCHarXiv CS.CL·20/04/2026

"Excuse me, may I say something..." CoLabScience, A Proactive AI Assistant for Biomedical Discovery and LLM-Expert Collaborations

CoLabScience est un assistant LLM proactif visant à accélérer la découverte biomédicale en améliorant la collaboration entre l'IA et les experts humains. Il intègre PULI, un cadre d'apprentissage par renforcement pour des interventions contextuelles, et présente BSDD, un nouveau jeu de données de dialogue de recherche simulé.

27
RESEARCHDEV.to AI·il y a 17j

The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models

Cette recherche explore le mécanisme d'entropie de l'apprentissage par renforcement, spécifiquement son application pour améliorer les capacités de raisonnement dans les modèles de langage. Elle étudie comment l'entropie peut être exploitée pour améliorer le processus d'apprentissage et la prise de décision pour un raisonnement plus robuste des modèles de langage.

27
RESEARCHDEV.to AI·12/04/2026

Explainable Causal Reinforcement Learning for wildfire evacuation logistics networks in carbon-negative infrastructure

Cette recherche vise à surmonter les limitations des modèles standards de Reinforcement Learning pour l'optimisation des évacuations en cas d'incendie de forêt. L'auteur applique l'inférence causale, inspirée par Judea Pearl et Bernhard Schölkopf, pour gérer les recommandations inexplicables et les variables de confusion.

27
ARTICLEDEV.to AI·07/05/2026

Meta-Optimized Continual Adaptation for circular manufacturing supply chains in carbon-negative infrastructure

L'auteur décrit un moment décisif où l'optimisation statique, y compris le méta-apprentissage, s'est avérée obsolète pour les chaînes d'approvisionnement de fabrication circulaire dynamiques, échouant catastrophiquement lors de changements de politique soudains comme une taxe carbone. Cette expérience a mis en évidence la limitation fondamentale des méthodes traditionnelles à s'adapter aux complexités du monde réel.

27
RESEARCHDEV.to AI·06/05/2026

Generative Simulation Benchmarking for deep-sea exploration habitat design during mission-critical recovery windows

Ce contenu décrit le parcours d'un chercheur utilisant l'IA générative pour la conception d'habitats d'exploration en eaux profondes. Après un échec initial, il a entrepris une étude d'un an pour développer des méthodes d'évaluation comparative des modèles génératifs par rapport aux contraintes du monde réel dans des environnements extrêmes.

27
RESEARCHDEV.to AI·21/04/2026

Explainable Causal Reinforcement Learning for satellite anomaly response operations under multi-jurisdictional compliance

Le texte aborde la nécessité d'une IA explicable et causale pour les opérations spatiales, illustrant avec un incident de satellite où une correction automatisée a violé les réglementations de souveraineté des données. Il souligne l'échec des approches traditionnelles de l'IA à gérer la complexité des contraintes techniques, des priorités opérationnelles et des frontières juridictionnelles.

27
ARTICLEDEV.to AI·il y a 14j

Human-Aligned Decision Transformers for bio-inspired soft robotics maintenance under real-time policy constraints

Un récit personnel détaille la lutte d'un chercheur avec un Decision Transformer qui échouait à maintenir des pinces robotiques souples bio-inspirées en déploiement réel, malgré des performances élevées en simulation. Le problème critique identifié était le désalignement entre la politique apprise par l'IA et les attentes humaines en matière de sécurité pour le matériel délicat.

27
DOCDEV.to AI·10/05/2026

Understanding Reinforcement Learning with Neural Networks Part 2: Why Backpropagation Is Not Enough

Cet article, faisant partie d'une série, explique pourquoi la rétropropagation standard est insuffisante pour certains scénarios d'apprentissage par renforcement. Il souligne la nécessité des gradients de politique en démontrant comment le calcul d'erreur et l'application des dérivées diffèrent de l'entraînement traditionnel des réseaux neuronaux.

27
ARTICLEDEV.to AI·16/04/2026

Policy Gradients — Deep Dive + Problem: Valid Parentheses

Les Policy Gradients sont un algorithme fondamental de l'apprentissage par renforcement qui optimise directement la politique, qui mappe les états aux actions, à l'aide de méthodes basées sur le gradient. C'est crucial pour gérer les espaces d'action de grande dimension et apprendre des politiques stochastiques, offrant des avantages sur les méthodes basées sur la valeur en apprenant la politique directement.

27
RESEARCHarXiv CS.CL·15/04/2026

Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision

Self-Distillation Zero (SD-Zero) est une nouvelle méthode de post-entraînement plus efficace en termes d'échantillons que l'apprentissage par renforcement, sans nécessiter d'enseignants externes ou de démonstrations de haute qualité. Elle entraîne un modèle unique à jouer les rôles de Générateur et de Réviseur, transformant les récompenses binaires éparses en une supervision dense via l'autodistillation.

27
RESEARCHarXiv CS.AI·15/04/2026

Self-Monitoring Benefits from Structural Integration: Lessons from Metacognition in Continuous-Time Multi-Timescale Agents

Cette étude examine l'utilité des capacités d'auto-surveillance (métacognition, auto-prédiction) chez les agents d'apprentissage par renforcement, constatant qu'elles n'offrent aucun bénéfice significatif. Les modules implémentés se sont effondrés vers des sorties quasi constantes, indiquant l'inefficacité des mécanismes testés.

27