← heapsort-ai

reinforcement learning

153 items

RESEARCHarXiv CS.AI·hace 9d

Uncertainty-Aware and Temporally Regulated Expert Advice in Reinforcement Learning for Autonomous Driving

Este trabajo presenta un marco consciente de la incertidumbre para el aprendizaje por refuerzo en la conducción autónoma, utilizando el asesoramiento de expertos para guiar la exploración de forma segura y evitar la dependencia a largo plazo. Emplea umbrales adaptativos para la activación del asesoramiento y una estrategia de compromiso-enfriamiento para regular la orientación, mostrando un rendimiento mejorado en simulaciones CARLA.

27
RESEARCHarXiv CS.AI·hace 16d

NeuroNL2LTL: A Neurosymbolic Framework for Natural Language Translation of Linear Temporal Logic

NeuroNL2LTL es una arquitectura neurosimbólica que unifica la traducción aprendida con la verificación formal para convertir el lenguaje natural en Lógica Temporal Lineal. Utiliza un entrenamiento con verificador en el bucle, donde los resultados de la verificación sirven como señales de recompensa para el aprendizaje por refuerzo, optimizando la corrección formal.

27
RESEARCHarXiv CS.LG·6/5/2026

Delay, Plateau, or Collapse: Evaluating the Impact of Systematic Verification Error on RLVR

Este artículo investiga el impacto de errores de verificación sistemáticos en el Aprendizaje por Refuerzo con Recompensas Verificables (RLVR), un enfoque para mejorar las capacidades de razonamiento de los LLM. A diferencia de análisis anteriores que consideraban los errores aleatorios, este estudio demuestra que los errores sistemáticos pueden hacer que los modelos aprendan comportamientos consistentes no deseados. Los experimentos en tareas aritméticas muestran que los falsos negativos sistemáticos tienen efectos similares al ruido aleatorio, mientras que los falsos positivos sistemáticos pueden causar problemas mayores.

27
RESEARCHarXiv CS.LG·6/5/2026

Generate, Filter, Control, Replay: A Comprehensive Survey of Rollout Strategies for LLM Reinforcement Learning

Esta encuesta proporciona una visión independiente del optimizador de las estrategias de rollout para el post-entrenamiento de LLM de razonamiento basados en RL. Formaliza los pipelines de rollout con una notación unificada e introduce la taxonomía del ciclo de vida Generate-Filter-Control-Replay (GFCR), descomponiendo los pipelines en cuatro etapas modulares.

27
RESEARCHarXiv CS.LG·6/4/2026

Prism: Policy Reuse via Interpretable Strategy Mapping in Reinforcement Learning

O artigo apresenta PRISM, uma estrutura para Reinforcement Learning que fundamenta as decisões de agentes em conceitos discretos e causalmente validados, usando-os como interface de transferência zero-shot. Ele demonstra que esses conceitos impulsionam diretamente o comportamento do agente e que a importância de um conceito pode ser dissociada de sua frequência de uso.

27
RESEARCHarXiv CS.CL·6/4/2026

Reinforcement Learning-based Knowledge Distillation with LLM-as-a-Judge

Este artigo propõe uma estrutura de Reinforcement Learning (RL) que utiliza um LLM como juiz para gerar recompensas, permitindo a destilação de conhecimento sem a necessidade de rótulos de verdade fundamental. A abordagem demonstra ganhos substanciais de desempenho em benchmarks de raciocínio matemático, sugerindo que avaliadores baseados em LLM podem produzir sinais de treinamento eficazes.

27
RESEARCHarXiv CS.LG·6/4/2026

LLM Reasoning with Process Rewards for Outcome-Guided Steps

Este conteúdo apresenta o PROGRS, um framework para melhorar o raciocínio matemático em LLMs, combinando modelos de recompensa de processo (PRMs) com a priorização da correção do resultado final. Ele busca resolver o problema de PRMs que podem recompensar raciocínios intermediários fluentes, mas que levam a respostas incorretas, otimizando o aprendizado com feedback mais alinhado.

27
RESEARCHarXiv CS.AI·hace 20d

SOLAR: A Self-Optimizing Open-Ended Autonomous Agent for Lifelong Learning and Continual Adaptation

SOLAR es un agente autónomo de IA diseñado para superar los desafíos de los grandes modelos de lenguaje en entornos dinámicos, permitiendo el aprendizaje continuo y la adaptación constante. Utiliza meta-aprendizaje a nivel de parámetro y aprendizaje por refuerzo multinivel para auto-mejorarse y descubrir estrategias de adaptación.

27