reinforcement learning

153 items

RESEARCHarXiv CS.CL·7/5/2026

Free Energy-Driven Reinforcement Learning with Adaptive Advantage Shaping for Unsupervised Reasoning in LLMs

FREIA es un algoritmo novedoso de aprendizaje por refuerzo que mejora los LLM para el razonamiento no supervisado, abordando la falta de adaptabilidad en los métodos existentes. Utiliza la Recompensa Impulsada por Energía Libre (FER) para equilibrar el consenso y la exploración, y la Configuración Adaptativa de Ventaja (AAS) para ajustar las señales de aprendizaje. FREIA supera a las bases de referencia no supervisadas en tareas de razonamiento, especialmente en matemáticas.

LLMs reinforcement learning AI algorithms Reasoning

RESEARCHarXiv CS.CL·hace 26d

Dual Hierarchical Dialogue Policy Learning for Legal Inquisitive Conversational Agents

Esta investigación presenta Agentes Conversacionales Inquisitivos (ICAs) diseñados para extraer información de manera proactiva, específicamente adaptados para los argumentos orales de la Corte Suprema de EE. UU. Propone un marco de Aprendizaje por Refuerzo Jerárquico Dual para coordinar la gestión estratégica del diálogo y la generación de enunciados detallados, superando significativamente las líneas de base.

reinforcement learning legal tech dialogue systems Conversational AI

RESEARCHarXiv CS.LG·hace 22d

Language Game: Talking to Non-Human Systems

Este artículo explora la comunicación directa con sistemas no-humanos (como redes genéticas u hongos) reconocidos como sustratos computacionales, yendo más allá de los LLMs como intermediarios. Propone un enfoque de "juego de lenguaje" utilizando el aprendizaje por refuerzo para permitir que estos sistemas se comuniquen con su propia "voz".

reinforcement learning AI communication large language models non-human systems

RESEARCHarXiv CS.CL·hace 8d

CSRP: Chain-of-Thought Reasoning for Chinese Text Correction via Reinforcement Learning with Efficiency-Aware Rewards

Este artículo propone CSRP, un marco de tres etapas para la corrección de errores gramaticales chinos (CGEC) utilizando Grandes Modelos de Lenguaje (LLMs). CSRP aborda los desafíos de los modelos de propósito general y la optimización de métricas con preentrenamiento continuo, SFT Chain-of-Thought y optimización de políticas con recompensas conscientes de la eficiencia que penalizan ediciones innecesarias, logrando un rendimiento de vanguardia en el benchmark NACGEC.

reinforcement learning Grammar Correction Natural Language Processing AI Research

RESEARCHarXiv CS.AI·11/5/2026

Weblica: Scalable and Reproducible Training Environments for Visual Web Agents

Este artículo propone Weblica, un framework para construir entornos web reproducibles y escalables para agentes web visuales. Utiliza el almacenamiento en caché a nivel HTTP y la síntesis de entornos basada en LLM para entrenar a agentes de RL en miles de tareas diversas, superando a los modelos base en los puntos de referencia de navegación web.

Scalability reinforcement learning machine learning AI agents

RESEARCHarXiv CS.LG·hace 22d

Investigating Action Encodings in Recurrent Neural Networks in Reinforcement Learning

Este artículo investiga cómo se puede incorporar la información de acción en la función de actualización de estado de una celda recurrente en redes neuronales recurrentes (RNN) para el aprendizaje por refuerzo (RL). Los autores discuten varias opciones y evalúan empíricamente las arquitecturas resultantes en dominios ilustrativos.

State Building reinforcement learning learning Action Encodings

RESEARCHarXiv CS.LG·hace 27d

Plan Before You Trade: Inference-Time Optimization for RL Trading Agents

Este artículo presenta FPILOT, un marco de optimización en tiempo de inferencia para agentes de negociación de aprendizaje por refuerzo. Utiliza trayectorias de precios predichas para optimizar la política antes de ejecutar una operación, siendo compatible con cualquier agente pre-entrenado.

Optimization financial trading reinforcement learning AI in finance

RESEARCHarXiv CS.LG·hace 28d

TMPO: Trajectory Matching Policy Optimization for Diverse and Efficient Diffusion Alignment

Trajectory Matching Policy Optimization (TMPO) aborda el problema de la recompensa excesiva en el aprendizaje por refuerzo para modelos de difusión, que a menudo causa colapso de modo y degrada la diversidad generativa. Sustituye la maximización de la recompensa escalar por la coincidencia de la distribución de recompensa a nivel de trayectoria, utilizando un objetivo de Softmax Trajectory Balance para alinear las probabilidades de la política con una distribución de Boltzmann inducida por la recompensa.

Diffusion Models reinforcement learning AI alignment Generative AI

RESEARCHarXiv CS.LG·hace 8d

On Effectiveness and Efficiency of Agentic Tool-calling and RL Training

Este artículo estudia la llamada a herramientas en agentes de modelos de lenguaje grandes (LLM), analizando su efectividad y eficiencia. Demuestra que las evaluaciones son sensibles a las decisiones de implementación y señala el desperdicio computacional en el entrenamiento de aprendizaje por refuerzo.

LLMs evaluation reinforcement learning tool-calling

RESEARCHarXiv CS.AI·hace 8d

MindGames Arena Generalization Track: In2AI Solution with Delayed Per-Step Reward Attribution

Esta investigación introduce un nuevo método de atribución de recompensa por paso retrasada para entrenar agentes de modelos de lenguaje en interacciones estratégicas multiagente. Aborda el desafío de los resultados entrelazados calculando las recompensas al final del episodio y propagándolas, lo que permite un aprendizaje por refuerzo estable y eficiente en muestras.

language models Generalization reinforcement learning multi-agent systems

RESEARCHarXiv CS.CL·hace 27d

Correct Answers from Sound Reasoning: Verifiable Process Supervision for Language Models

Este artículo propone la Supervisión de Proceso Verificable (VPS), un marco de post-entrenamiento para optimizar conjuntamente la precisión de predicción y la calidad del razonamiento en modelos de lenguaje. VPS emplea ajuste fino supervisado para inducir un formato de razonamiento estructurado, evaluando afirmaciones intermedias con señales de verdad fundamental y ponderación adaptativa de recompensas.

language models reinforcement learning AI training verifiable AI

RESEARCHarXiv CS.AI·hace 23d

ICRL: Learning to Internalize Self-Critique with Reinforcement Learning

ICRL propone un nuevo framework para entrenar agentes de modelos de lenguaje grandes para internalizar la autocrítica, convirtiendo la retroalimentación en capacidad de resolución de problemas sin asistencia. Entrena conjuntamente un solucionador y un crítico desde un backbone compartido, recompensando al crítico por una retroalimentación accionable para fomentar la auto-mejora iterativa.

reinforcement learning learning self-critique large language models

RESEARCHarXiv CS.LG·hace 27d

Multi-Rollout On-Policy Distillation via Peer Successes and Failures

El artículo presenta la Destilación On-Policy Multi-Rollout (MOPD), un marco que utiliza el grupo de despliegues locales de un estudiante para construir señales de profesor más informativas para el post-entrenamiento de LLMs. MOPD condiciona al profesor tanto en despliegues exitosos como fallidos, utilizando los éxitos para patrones de razonamiento válidos y los fallos para evitar errores plausibles.

distillation reinforcement learning AI training machine learning

RESEARCHarXiv CS.LG·hace 27d

Learning When to Act: Communication-Efficient Reinforcement Learning via Run-Time Assurance

Este artículo propone un enfoque de aprendizaje por refuerzo eficiente en comunicación, donde una sola política aprende decisiones de control y temporización, protegida por un escudo de seguridad Lyapunov. Una capa de garantía en tiempo de ejecución anula la política para proporcionar garantías de seguridad más fuertes y lograr intervalos entre muestras significativamente mayores en varios sistemas.

reinforcement learning machine learning safety-critical-ai Control Systems

RESEARCHarXiv CS.AI·hace 28d

RankQ: Offline-to-Online Reinforcement Learning via Self-Supervised Action Ranking

RankQ es un objetivo de aprendizaje por refuerzo offline-a-online que mejora la eficiencia de la muestra utilizando conjuntos de datos pre-recopilados. Aborda el desafío de aprender un crítico preciso en grandes espacios de estado-acción mediante una pérdida de clasificación multi-término auto-supervisada, que impone un orden estructurado de las acciones y dirige la función Q hacia acciones de mayor calidad.

Offline-to-Online Learning Action Ranking reinforcement learning self-supervised learning

RESEARCHarXiv CS.AI·hace 27d

State-Centric Decision Process

El Proceso de Decisión Centrado en el Estado (SDP) es un nuevo marco que aborda la falta de estructura de tiempo de ejecución en entornos de lenguaje, como navegadores web, que emiten texto sin procesar en lugar de estados. Permite a un agente construir entradas MDP faltantes, como el espacio de estados y transiciones certificadas, tomando acciones y verificando observaciones contra predicados en lenguaje natural.

Decision Processes reinforcement learning Natural Language Processing AI agents

RESEARCHarXiv CS.AI·hace 23d

SDOF: Taming the Alignment Tax in Multi-Agent Orchestration with State-Constrained Dispatch

Este artículo presenta SDOF, un marco que trata la ejecución multiagente como una máquina de estados restringida para imponer las limitaciones de los procesos de negocio. Incorpora un enrutador de intenciones entrenado con RLHF y un despachador consciente del estado, superando a GPT-4o en un benchmark de enrutamiento adversario en un sistema de contratación.

hiring AI frameworks reinforcement learning orchestration

RESEARCHarXiv CS.LG·hace 21d

PROWL: Prioritized Regret-Driven Optimization for World Model Learning

PROWL introduce un currículo adversarial con restricción KL donde una política expone trayectorias de alto error de un modelo de mundo basado en difusión. Este método mejora la robustez del modelo al enfocarse en transiciones raras y críticas para la interacción, convirtiendo los fallos en una señal de entrenamiento estable sin desviarse a la explotación fuera de distribución.

reinforcement learning model learning security World Models

RESEARCHarXiv CS.AI·hace 12d

Behavior-Aware Auxiliary Corrections for Off-Policy Temporal-Difference Prediction

Este artículo presenta correcciones auxiliares conscientes del comportamiento para la predicción de diferencia temporal fuera de política, buscando estabilizar el aprendizaje TD con aproximación de funciones. Reemplaza la matriz auxiliar de TDC con la matriz de Bellman de comportamiento para desarrollar BA-TDC y BA-TDRC, ofreciendo un modelo para el diseño de geometría auxiliar en la aproximación de valor de redes neuronales.

neural networks reinforcement learning learning temporal-difference learning

RESEARCHarXiv CS.LG·hace 12d

Self-Play Reinforcement Learning under Imperfect Information in Big 2

Este estudio desarrolla un marco de aprendizaje por refuerzo de autoaprendizaje para el juego de cartas Big 2 con información imperfecta. La investigación demuestra que PPO supera a otros agentes de aproximación de valor y se beneficia de la regularización de entropía y el autoaprendizaje de la política actual.

reinforcement learning learning self-play imperfect-information-games