← heapsort-ai

reinforcement learning

153 items

RESEARCHarXiv CS.CL·7/5/2026

Free Energy-Driven Reinforcement Learning with Adaptive Advantage Shaping for Unsupervised Reasoning in LLMs

FREIA es un algoritmo novedoso de aprendizaje por refuerzo que mejora los LLM para el razonamiento no supervisado, abordando la falta de adaptabilidad en los métodos existentes. Utiliza la Recompensa Impulsada por Energía Libre (FER) para equilibrar el consenso y la exploración, y la Configuración Adaptativa de Ventaja (AAS) para ajustar las señales de aprendizaje. FREIA supera a las bases de referencia no supervisadas en tareas de razonamiento, especialmente en matemáticas.

27
RESEARCHarXiv CS.CL·hace 26d

Dual Hierarchical Dialogue Policy Learning for Legal Inquisitive Conversational Agents

Esta investigación presenta Agentes Conversacionales Inquisitivos (ICAs) diseñados para extraer información de manera proactiva, específicamente adaptados para los argumentos orales de la Corte Suprema de EE. UU. Propone un marco de Aprendizaje por Refuerzo Jerárquico Dual para coordinar la gestión estratégica del diálogo y la generación de enunciados detallados, superando significativamente las líneas de base.

27
RESEARCHarXiv CS.CL·hace 8d

CSRP: Chain-of-Thought Reasoning for Chinese Text Correction via Reinforcement Learning with Efficiency-Aware Rewards

Este artículo propone CSRP, un marco de tres etapas para la corrección de errores gramaticales chinos (CGEC) utilizando Grandes Modelos de Lenguaje (LLMs). CSRP aborda los desafíos de los modelos de propósito general y la optimización de métricas con preentrenamiento continuo, SFT Chain-of-Thought y optimización de políticas con recompensas conscientes de la eficiencia que penalizan ediciones innecesarias, logrando un rendimiento de vanguardia en el benchmark NACGEC.

27
RESEARCHarXiv CS.AI·11/5/2026

Weblica: Scalable and Reproducible Training Environments for Visual Web Agents

Este artículo propone Weblica, un framework para construir entornos web reproducibles y escalables para agentes web visuales. Utiliza el almacenamiento en caché a nivel HTTP y la síntesis de entornos basada en LLM para entrenar a agentes de RL en miles de tareas diversas, superando a los modelos base en los puntos de referencia de navegación web.

27
RESEARCHarXiv CS.LG·hace 22d

Investigating Action Encodings in Recurrent Neural Networks in Reinforcement Learning

Este artículo investiga cómo se puede incorporar la información de acción en la función de actualización de estado de una celda recurrente en redes neuronales recurrentes (RNN) para el aprendizaje por refuerzo (RL). Los autores discuten varias opciones y evalúan empíricamente las arquitecturas resultantes en dominios ilustrativos.

27
RESEARCHarXiv CS.LG·hace 28d

TMPO: Trajectory Matching Policy Optimization for Diverse and Efficient Diffusion Alignment

Trajectory Matching Policy Optimization (TMPO) aborda el problema de la recompensa excesiva en el aprendizaje por refuerzo para modelos de difusión, que a menudo causa colapso de modo y degrada la diversidad generativa. Sustituye la maximización de la recompensa escalar por la coincidencia de la distribución de recompensa a nivel de trayectoria, utilizando un objetivo de Softmax Trajectory Balance para alinear las probabilidades de la política con una distribución de Boltzmann inducida por la recompensa.

27
RESEARCHarXiv CS.AI·hace 8d

MindGames Arena Generalization Track: In2AI Solution with Delayed Per-Step Reward Attribution

Esta investigación introduce un nuevo método de atribución de recompensa por paso retrasada para entrenar agentes de modelos de lenguaje en interacciones estratégicas multiagente. Aborda el desafío de los resultados entrelazados calculando las recompensas al final del episodio y propagándolas, lo que permite un aprendizaje por refuerzo estable y eficiente en muestras.

27
RESEARCHarXiv CS.CL·hace 27d

Correct Answers from Sound Reasoning: Verifiable Process Supervision for Language Models

Este artículo propone la Supervisión de Proceso Verificable (VPS), un marco de post-entrenamiento para optimizar conjuntamente la precisión de predicción y la calidad del razonamiento en modelos de lenguaje. VPS emplea ajuste fino supervisado para inducir un formato de razonamiento estructurado, evaluando afirmaciones intermedias con señales de verdad fundamental y ponderación adaptativa de recompensas.

27
RESEARCHarXiv CS.AI·hace 23d

ICRL: Learning to Internalize Self-Critique with Reinforcement Learning

ICRL propone un nuevo framework para entrenar agentes de modelos de lenguaje grandes para internalizar la autocrítica, convirtiendo la retroalimentación en capacidad de resolución de problemas sin asistencia. Entrena conjuntamente un solucionador y un crítico desde un backbone compartido, recompensando al crítico por una retroalimentación accionable para fomentar la auto-mejora iterativa.

27
RESEARCHarXiv CS.LG·hace 27d

Multi-Rollout On-Policy Distillation via Peer Successes and Failures

El artículo presenta la Destilación On-Policy Multi-Rollout (MOPD), un marco que utiliza el grupo de despliegues locales de un estudiante para construir señales de profesor más informativas para el post-entrenamiento de LLMs. MOPD condiciona al profesor tanto en despliegues exitosos como fallidos, utilizando los éxitos para patrones de razonamiento válidos y los fallos para evitar errores plausibles.

27
RESEARCHarXiv CS.LG·hace 27d

Learning When to Act: Communication-Efficient Reinforcement Learning via Run-Time Assurance

Este artículo propone un enfoque de aprendizaje por refuerzo eficiente en comunicación, donde una sola política aprende decisiones de control y temporización, protegida por un escudo de seguridad Lyapunov. Una capa de garantía en tiempo de ejecución anula la política para proporcionar garantías de seguridad más fuertes y lograr intervalos entre muestras significativamente mayores en varios sistemas.

27
RESEARCHarXiv CS.AI·hace 28d

RankQ: Offline-to-Online Reinforcement Learning via Self-Supervised Action Ranking

RankQ es un objetivo de aprendizaje por refuerzo offline-a-online que mejora la eficiencia de la muestra utilizando conjuntos de datos pre-recopilados. Aborda el desafío de aprender un crítico preciso en grandes espacios de estado-acción mediante una pérdida de clasificación multi-término auto-supervisada, que impone un orden estructurado de las acciones y dirige la función Q hacia acciones de mayor calidad.

27
RESEARCHarXiv CS.AI·hace 27d

State-Centric Decision Process

El Proceso de Decisión Centrado en el Estado (SDP) es un nuevo marco que aborda la falta de estructura de tiempo de ejecución en entornos de lenguaje, como navegadores web, que emiten texto sin procesar en lugar de estados. Permite a un agente construir entradas MDP faltantes, como el espacio de estados y transiciones certificadas, tomando acciones y verificando observaciones contra predicados en lenguaje natural.

27
RESEARCHarXiv CS.AI·hace 23d

SDOF: Taming the Alignment Tax in Multi-Agent Orchestration with State-Constrained Dispatch

Este artículo presenta SDOF, un marco que trata la ejecución multiagente como una máquina de estados restringida para imponer las limitaciones de los procesos de negocio. Incorpora un enrutador de intenciones entrenado con RLHF y un despachador consciente del estado, superando a GPT-4o en un benchmark de enrutamiento adversario en un sistema de contratación.

27
RESEARCHarXiv CS.LG·hace 21d

PROWL: Prioritized Regret-Driven Optimization for World Model Learning

PROWL introduce un currículo adversarial con restricción KL donde una política expone trayectorias de alto error de un modelo de mundo basado en difusión. Este método mejora la robustez del modelo al enfocarse en transiciones raras y críticas para la interacción, convirtiendo los fallos en una señal de entrenamiento estable sin desviarse a la explotación fuera de distribución.

27
RESEARCHarXiv CS.AI·hace 12d

Behavior-Aware Auxiliary Corrections for Off-Policy Temporal-Difference Prediction

Este artículo presenta correcciones auxiliares conscientes del comportamiento para la predicción de diferencia temporal fuera de política, buscando estabilizar el aprendizaje TD con aproximación de funciones. Reemplaza la matriz auxiliar de TDC con la matriz de Bellman de comportamiento para desarrollar BA-TDC y BA-TDRC, ofreciendo un modelo para el diseño de geometría auxiliar en la aproximación de valor de redes neuronales.

27