reinforcement learning

153 items

RESEARCHarXiv CS.AI·hace 15d

Quantum Frog: Emergent Cooperation and Difficulty Scaling in a Quantized-Time Cooperative Game

Este artículo presenta "Quantum Frog", un juego cooperativo para dos jugadores con una mecánica de tiempo cuantificado, inspirado en Frogger. Utiliza el aprendizaje por refuerzo para analizar la dificultad del juego, las políticas óptimas y las estrategias cooperativas emergentes.

reinforcement learning multi-agent systems game theory Cooperative AI

RESEARCHarXiv CS.AI·hace 9d

Uncertainty-Aware and Temporally Regulated Expert Advice in Reinforcement Learning for Autonomous Driving

Este trabajo presenta un marco consciente de la incertidumbre para el aprendizaje por refuerzo en la conducción autónoma, utilizando el asesoramiento de expertos para guiar la exploración de forma segura y evitar la dependencia a largo plazo. Emplea umbrales adaptativos para la activación del asesoramiento y una estrategia de compromiso-enfriamiento para regular la orientación, mostrando un rendimiento mejorado en simulaciones CARLA.

reinforcement learning autonomous driving Exploration uncertainty

RESEARCHarXiv CS.AI·hace 16d

NeuroNL2LTL: A Neurosymbolic Framework for Natural Language Translation of Linear Temporal Logic

NeuroNL2LTL es una arquitectura neurosimbólica que unifica la traducción aprendida con la verificación formal para convertir el lenguaje natural en Lógica Temporal Lineal. Utiliza un entrenamiento con verificador en el bucle, donde los resultados de la verificación sirven como señales de recompensa para el aprendizaje por refuerzo, optimizando la corrección formal.

reinforcement learning Neurosymbolic AI Formal verification Natural Language Processing

RESEARCHDEV.to AI·3/5/2026

R1-Searcher: Incentivizing the Search Capability in LLMs via ReinforcementLearning

El artículo aborda la mejora de la capacidad de búsqueda en Large Language Models (LLMs) mediante la aplicación de Reinforcement Learning. Propone un método para incentivar el comportamiento de búsqueda en LLMs.

LLMs reinforcement learning machine learning search

RESEARCHDEV.to AI·21/4/2026

Multi-Objective Deep Reinforcement Learning

Este contenido explora el campo del Aprendizaje Profundo por Refuerzo Multiobjetivo. Probablemente profundiza en técnicas para entrenar agentes de IA para optimizar múltiples criterios de rendimiento simultáneamente.

Optimization deep learning reinforcement learning

RESEARCHarXiv CS.LG·30/4/2026

A Survey of Multi-Agent Deep Reinforcement Learning with Graph Neural Network-Based Communication

Este artículo examina la comunicación basada en GNNs en el aprendizaje por refuerzo multiagente (MARL), señalando la falta de una estructura explícita. Propone un proceso de comunicación generalizado basado en GNNs para hacer los conceptos subyacentes más obvios y accesibles.

reinforcement learning Graph Neural Networks multi-agent systems

RESEARCHarXiv CS.LG·6/5/2026

Delay, Plateau, or Collapse: Evaluating the Impact of Systematic Verification Error on RLVR

Este artículo investiga el impacto de errores de verificación sistemáticos en el Aprendizaje por Refuerzo con Recompensas Verificables (RLVR), un enfoque para mejorar las capacidades de razonamiento de los LLM. A diferencia de análisis anteriores que consideraban los errores aleatorios, este estudio demuestra que los errores sistemáticos pueden hacer que los modelos aprendan comportamientos consistentes no deseados. Los experimentos en tareas aritméticas muestran que los falsos negativos sistemáticos tienen efectos similares al ruido aleatorio, mientras que los falsos positivos sistemáticos pueden causar problemas mayores.

reinforcement learning AI Errors Verification large language models

RESEARCHarXiv CS.LG·6/5/2026

Generate, Filter, Control, Replay: A Comprehensive Survey of Rollout Strategies for LLM Reinforcement Learning

Esta encuesta proporciona una visión independiente del optimizador de las estrategias de rollout para el post-entrenamiento de LLM de razonamiento basados en RL. Formaliza los pipelines de rollout con una notación unificada e introduce la taxonomía del ciclo de vida Generate-Filter-Control-Replay (GFCR), descomponiendo los pipelines en cuatro etapas modulares.

Rollout Strategies reinforcement learning machine learning AI research

RESEARCHarXiv CS.CL·hace 29d

AIPO: : Learning to Reason from Active Interaction

AIPO es un nuevo marco de aprendizaje por refuerzo que mejora el razonamiento de los LLM mediante la interacción multiagente activa durante la exploración. Aborda las limitaciones de los algoritmos de RL existentes, que están restringidos por la capacidad del modelo de política y dependen de una guía ineficiente.

LLMs reinforcement learning learning AI Reasoning

ARTICLETogether AI Blog·24/4/2026

Accelerate RL rollouts by up to 50% with distribution-aware speculative decoding

DAS (decodificación especulativa consciente de la distribución) soluciona el cuello de botella de rollout en el post-entrenamiento de RL. Acelera los rollouts hasta en un 50% sin degradación en la calidad de la recompensa.

Optimization AI acceleration reinforcement learning machine learning

RESEARCHarXiv CS.LG·6/4/2026

Prism: Policy Reuse via Interpretable Strategy Mapping in Reinforcement Learning

O artigo apresenta PRISM, uma estrutura para Reinforcement Learning que fundamenta as decisões de agentes em conceitos discretos e causalmente validados, usando-os como interface de transferência zero-shot. Ele demonstra que esses conceitos impulsionam diretamente o comportamento do agente e que a importância de um conceito pode ser dissociada de sua frequência de uso.

Strategy Mapping reinforcement learning Transfer Learning interpretability

RESEARCHarXiv CS.CL·6/4/2026

Reinforcement Learning-based Knowledge Distillation with LLM-as-a-Judge

Este artigo propõe uma estrutura de Reinforcement Learning (RL) que utiliza um LLM como juiz para gerar recompensas, permitindo a destilação de conhecimento sem a necessidade de rótulos de verdade fundamental. A abordagem demonstra ganhos substanciais de desempenho em benchmarks de raciocínio matemático, sugerindo que avaliadores baseados em LLM podem produzir sinais de treinamento eficazes.

language models Unlabeled Data Knowledge Distillation Math Reasoning

RESEARCHarXiv CS.LG·6/4/2026

Contextual Intelligence The Next Leap for Reinforcement Learning

O texto aborda as limitações de generalização do Reinforcement Learning (RL), onde políticas aprendidas falham fora da distribuição de treinamento. Propõe uma nova taxonomia de contextos (alógenos e autógenos) e identifica direções de pesquisa cruciais para desenvolver uma verdadeira inteligência contextual.

Generalization Contextual Intelligence reinforcement learning Taxonomy

RESEARCHarXiv CS.LG·6/4/2026

LLM Reasoning with Process Rewards for Outcome-Guided Steps

Este conteúdo apresenta o PROGRS, um framework para melhorar o raciocínio matemático em LLMs, combinando modelos de recompensa de processo (PRMs) com a priorização da correção do resultado final. Ele busca resolver o problema de PRMs que podem recompensar raciocínios intermediários fluentes, mas que levam a respostas incorretas, otimizando o aprendizado com feedback mais alinhado.

mathematical reasoning Process Rewards reinforcement learning AI

RESEARCHarXiv CS.AI·hace 20d

OSCToM: RL-Guided Adversarial Generation for High-Order Theory of Mind

Este artículo presenta OSCToM, un enfoque para modelar conflictos de creencias anidados en tareas de Teoría de la Mente basadas en LLM. Combina el aprendizaje por refuerzo y modelos sustitutos composicionales para generar estos conflictos, y OSCToM-8B mostró los mejores resultados en los experimentos.

LLMs reinforcement learning AI research Theory of Mind

RESEARCHarXiv CS.AI·hace 20d

SOLAR: A Self-Optimizing Open-Ended Autonomous Agent for Lifelong Learning and Continual Adaptation

SOLAR es un agente autónomo de IA diseñado para superar los desafíos de los grandes modelos de lenguaje en entornos dinámicos, permitiendo el aprendizaje continuo y la adaptación constante. Utiliza meta-aprendizaje a nivel de parámetro y aprendizaje por refuerzo multinivel para auto-mejorarse y descubrir estrategias de adaptación.

Meta-Learning reinforcement learning learning Lifelong Learning

RESEARCHarXiv CS.AI·hace 20d

Mahjax: A GPU-Accelerated Mahjong Simulator for Reinforcement Learning in JAX

Mahjax es un nuevo entorno de Riichi Mahjong completamente vectorizado implementado en JAX, diseñado para permitir la paralelización a gran escala en GPUs para la investigación de aprendizaje por refuerzo. Facilita el aprendizaje tabula rasa y ofrece una herramienta de visualización de alta calidad para depurar agentes entrenados.

reinforcement learning learning GPU Mahjong

RESEARCHHugging Face Blog·16/4/2026

Ecom-RLVE: Adaptive Verifiable Environments for E-Commerce Conversational Agents

Esta investigación presenta Ecom-RLVE, un marco diseñado para crear entornos adaptativos y verificables para agentes conversacionales que operan en el comercio electrónico. Se centra en el desarrollo de sistemas de IA robustos y confiables para interacciones de compra en línea.

reinforcement learning Adaptive systems verifiable AI e-commerce

RESEARCHDEV.to AI·21/4/2026

Learning to be Safe: Deep RL with a Safety Critic

Este contenido explora un enfoque novedoso para el Aprendizaje por Refuerzo Profundo mediante la integración de un "crítico de seguridad" para prevenir acciones inseguras. La metodología tiene como objetivo mejorar la fiabilidad y robustez de los agentes de IA, haciéndolos aptos para su implementación en el mundo real donde la seguridad es fundamental.

deep learning reinforcement learning security machine learning

RESEARCHTogether AI Blog·31/3/2026

Aurora

Aurora es un framework de RL de código abierto que mejora la decodificación especulativa, convirtiéndola en un sistema auto-mejorable. Aprende de cada solicitud, ofreciendo un rendimiento 1.25x superior a los especuladores estáticos.

Open Source AI Framework reinforcement learning Performance Improvement