← heapsort-ai

reinforcement learning

153 items

RESEARCHarXiv CS.AI·15/4/2026

When to Forget: A Memory Governance Primitive

Este artículo propone una nueva métrica, Memory Worth (MW), para gobernar la calidad de la memoria en sistemas de agentes, decidiendo qué memorias confiar, suprimir o depreciar. MW utiliza un sistema de dos contadores por memoria que rastrea co-ocurrencias con resultados exitosos o fallidos, convergiendo a la probabilidad condicional de éxito de una tarea.

27
RESEARCHarXiv CS.LG·28/4/2026

KARL: Mitigating Hallucinations in LLMs via Knowledge-Boundary-Aware Reinforcement Learning

KARL es un nuevo framework diseñado para mitigar alucinaciones en grandes modelos de lenguaje, permitiéndoles abstenerse apropiadamente de preguntas más allá de su conocimiento. Esto se logra mediante una Recompensa Sensible a los Límites del Conocimiento que estima dinámicamente el conocimiento del modelo y una Estrategia de Entrenamiento RL en Dos Etapas que previene la cautela excesiva.

27
RESEARCHarXiv CS.AI·13/4/2026

RAMP: Hybrid DRL for Online Learning of Numeric Action Models

RAMP propone una estrategia novedosa para aprender modelos de acción de planificación numérica en línea a través de interacciones con el entorno, integrando DRL, aprendizaje de modelos de acción y planificación. Esto crea un ciclo de retroalimentación positiva donde la política de RL recopila datos para refinar el modelo de acción, mientras que el planificador genera planes para continuar entrenando la política de RL.

27
RESEARCHarXiv CS.LG·14/4/2026

Belief-State RWKV for Reinforcement Learning under Partial Observability

Este artículo propone Belief-State RWKV, una formulación más sólida de RL donde el estado recurrente se interpreta explícitamente como un estado de creencia. El método mantiene un estado compacto consciente de la incertidumbre, permitiendo que las políticas dependan tanto de la memoria como de la confianza en entornos parcialmente observados.

27
RESEARCHarXiv CS.LG·14/4/2026

A Comparative Theoretical Analysis of Entropy Control Methods in Reinforcement Learning

Este artículo presenta un análisis teórico comparativo de estrategias de control de entropía en Aprendizaje por Refuerzo, enfocándose en la regularización tradicional versus un mecanismo basado en covarianza para el entrenamiento de LLMs. Establece un marco unificado, mostrando que los métodos basados en covarianza logran una imparcialidad asintótica al regularizar selectivamente, a diferencia de los métodos tradicionales que introducen un sesgo persistente.

27
RESEARCHarXiv CS.LG·9/4/2026

RAGEN-2: Reasoning Collapse in Agentic RL

Este estudo introduz o conceito de 'colapso de template', uma falha em agentes LLM de múltiplas interações onde a resposta se torna agnóstica à entrada, mesmo com entropia estável. Propõe a Informação Mútua (MI) como uma métrica superior à entropia para diagnosticar a qualidade do raciocínio, correlacionando-se mais fortemente com o desempenho final.

27
RESEARCHarXiv CS.CL·27/4/2026

Outcome Rewards Do Not Guarantee Verifiable or Causally Important Reasoning

Este artículo investiga si las recompensas de resultado en el aprendizaje por refuerzo para cadenas de pensamiento garantizan un razonamiento verificable o causalmente importante en los LLM. Introduciendo las métricas CIR y SR, los autores encuentran que, si bien el RLVR mejora la precisión, no mejora de forma fiable el CIR o el SR, y una pequeña cantidad de SFT puede remediar estos problemas.

27
RESEARCHarXiv CS.AI·9/5/2026

From History to State: Constant-Context Skill Learning for LLM Agents

Este artículo propone el aprendizaje de habilidades de contexto constante, un marco novedoso para que los agentes de LLM gestionen flujos de trabajo recurrentes de manera más eficiente. Aborda los desafíos de privacidad, costo y capacidad al aprender procedimientos reutilizables en módulos de familia de tareas y condicionar la inferencia en un bloque de estado compacto. Su eficacia se demuestra en puntos de referencia como ALFWorld, WebShop y SciWorld.

27
RESEARCHarXiv CS.CL·27/4/2026

Incentivizing Neuro-symbolic Language-based Reasoning in VLMs via Reinforcement Learning

Este trabajo explora el razonamiento en lenguaje neuro-simbólico en VLMs, utilizando Aprendizaje por Refuerzo para mejorar las habilidades analíticas y la eficiencia. Logró un aumento del 3,33% en la precisión en un conjunto de datos de visión-lenguaje y una reducción del 75% en los tokens de razonamiento.

27
RESEARCHarXiv CS.CL·8/4/2026

Document Optimization for Black-Box Retrieval via Reinforcement Learning

Este artigo de pesquisa propõe uma nova abordagem para otimização de documentos, transformando-os para melhor alinhamento com sistemas de recuperação via Reinforcement Learning (GRPO), utilizando melhorias de ranking como recompensa. O método, aplicável a retrievers de caixa preta, demonstrou ganhos em tarefas de recuperação de código e documentos visuais.

27
RESEARCHarXiv CS.LG·9/4/2026

Probabilistic Language Tries: A Unified Framework for Compression, Decision Policies, and Execution Reuse

Este artigo apresenta Probabilistic Language Tries (PLTs), uma representação unificada que explicita a estrutura de prefixo de qualquer modelo generativo sobre sequências. PLTs atuam como compressor lossless ideal, representação de política para problemas de decisão sequencial (como jogos e robótica) e índice de memoização para reuso de execução, com um teorema chave sobre caching guiado por prior.

27
RESEARCHarXiv CS.AI·4/5/2026

TUR-DPO: Topology- and Uncertainty-Aware Direct Preference Optimization

TUR-DPO es una nueva variante de Optimización de Preferencia Directa (DPO) sensible a la topología y la incertidumbre, que mejora la alineación de grandes modelos de lenguaje (LLMs) con las preferencias humanas. Recompensa cómo se derivan las respuestas, no solo lo que dicen, incorporando topologías de razonamiento y señales de incerteza.

27
RESEARCHarXiv CS.AI·7/5/2026

Regularized Centered Emphatic Temporal Difference Learning

Este artículo presenta el Aprendizaje por Diferencia Temporal Enfática Regularizada (RETD) para abordar el equilibrio entre estabilidad, geometría de proyección y varianza en el aprendizaje por diferencia temporal fuera de política. Propone un método que regulariza la recursión de centrado auxiliar para mantener la definida positividad de la matriz clave ETD y demuestra su convergencia.

27
RESEARCHarXiv CS.CL·7/5/2026

Adapt to Thrive! Adaptive Power-Mean Policy Optimization for Improved LLM Reasoning

Esta investigación propone la Optimización de Política de Media de Potencia Adaptativa (APMPO) para mejorar el razonamiento de Modelos de Lenguaje Grandes (LLMs) mediante RLVR. APMPO utiliza un objetivo de media de potencia generalizado y un recorte adaptable por retroalimentación para mejorar la dinámica de aprendizaje y el rendimiento.

27
RESEARCHarXiv CS.LG·hace 21d

Reducing Credit Assignment Variance via Counterfactual Reasoning Paths

Esta investigación aborda el desafío de la mala asignación de crédito en el aprendizaje por refuerzo para el razonamiento multi-paso con grandes modelos de lenguaje, causado por recompensas terminales dispersas que conducen a una alta varianza de gradiente y un entrenamiento inestable. Propone un marco de asignación de crédito basado en comparación contrafactual y la Optimización Implícita de la Política de Comportamiento (IBPO) para crear señales de aprendizaje sensibles al paso, mejorando significativamente la estabilidad y el rendimiento del entrenamiento.

27
RESEARCHarXiv CS.LG·hace 7d

World Models: A Comprehensive Survey of Architectures, Methodologies, Reasoning Paradigms, and Applications

Esta encuesta aborda la falta de un marco unificado para los modelos de mundo, simuladores internos utilizados en IA para la predicción, planificación y razonamiento. Propone una taxonomía multieje que organiza sus diversos aspectos como arquitectura, metodología, paradigmas de razonamiento y aplicaciones en campos como el aprendizaje por refuerzo y la robótica.

27
RESEARCHarXiv CS.LG·hace 25d

Beyond Mode-Seeking RL: Trajectory-Balance Post-Training for Diffusion Language Models

Este artículo presenta TraFL, un nuevo enfoque de post-entrenamiento para modelos de lenguaje de difusión que aborda el "bloqueo de trayectoria" encontrado en métodos de maximización de recompensa. TraFL, un objetivo de equilibrio de trayectoria, supera a otros métodos en benchmarks de razonamiento matemático y generación de código.

27
RESEARCHarXiv CS.LG·hace 28d

Distributional Reinforcement Learning via the Cram\'er Distance

Este artículo introduce el algoritmo C-DSAC, que aplica Soft Actor-Critic en un entorno de aprendizaje por refuerzo distribucional minimizando la distancia de Cramér. Los resultados empíricos muestran que C-DSAC supera a los métodos existentes, especialmente en entornos complejos, debido a sus actualizaciones de valores Q impulsadas por la confianza.

27