← heapsort-ai

reinforcement learning

153 items

RESEARCHarXiv CS.CL·hace 27d

ReAD: Reinforcement-Guided Capability Distillation for Large Language Models

ReAD es un marco de destilación de capacidades guiado por refuerzo para Grandes Modelos de Lenguaje (LLMs), diseñado para comprimir modelos manteniendo las habilidades necesarias para tareas específicas. La propuesta considera la interdependencia de las capacidades para optimizar el presupuesto de tokens y evitar la degradación de habilidades útiles.

28
RESEARCHarXiv CS.LG·hace 12d

Personalized Observation Normalization for Federated Reinforcement Learning in Simulation Environments with Heterogeneity

El artículo presenta un método de normalización de observación personalizada (PON) para el aprendizaje por refuerzo federado (FedRL), diseñado para superar desafíos en entornos heterogéneos. Este método permite que cada agente normalice localmente las entradas de estado, asegurando un escalado consistente y mejorando el rendimiento en tareas MuJoCo.

28
RESEARCHarXiv CS.AI·13/4/2026

SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks

SPPO (Sequence-Level PPO) aborda las limitaciones del PPO estándar en tareas de razonamiento de LLMs de largo horizonte, reformulando el proceso como un problema de Bandido Contextual a Nivel de Secuencia. Este enfoque utiliza una función de valor escalar desacoplada para derivar señales de ventaja de baja varianza, mejorando la eficiencia de la muestra y la estabilidad sin la sobrecarga computacional.

28
RESEARCHarXiv CS.AI·16/4/2026

Exploration and Exploitation Errors Are Measurable for Language Model Agents

Esta investigación presenta un método para cuantificar sistemáticamente los errores de exploración y explotación en agentes de Modelos de Lenguaje (LM), abordando el desafío de la evaluación sin acceso a las políticas internas. Propone entornos controlables y una métrica agnóstica a la política para medir estos errores, revelando fallos incluso en los LM de vanguardia.

28
RESEARCHarXiv CS.LG·8/4/2026

Enhancing sample efficiency in reinforcement-learning-based flow control: replacing the critic with an adaptive reduced-order model

Este trabalho introduz uma estrutura de aprendizado por reforço baseada em modelo de ordem reduzida (ROM) adaptativo para controle de fluxo ativo. Ele visa melhorar a eficiência de amostragem do DRL, substituindo o crítico por um ROM que estima gradientes e se atualiza continuamente com novos dados.

28
ARTICLEDEV.to AI·19/4/2026

Meta-Optimized Continual Adaptation for bio-inspired soft robotics maintenance with zero-trust governance guarantees

El autor experimentó una degradación significativa en un robot blando bio-inspirado, revelando la insuficiencia del aprendizaje por refuerzo estándar para las brechas dinámicas de simulación a la realidad. Esto impulsó un enfoque de adaptación continua meta-optimizada para el mantenimiento, con garantías de gobernanza de confianza cero.

28
RESEARCHDEV.to AI·hace 27d

Meta-Optimized Continual Adaptation for smart agriculture microgrid orchestration during mission-critical recovery windows

El texto aborda el fallo de modelos de IA estáticos en entornos dinámicos e impredecibles, ejemplificado por la interrupción de un agente de RL durante un corte de energía en una microrred agrícola inteligente. Este incidente crítico impulsó la investigación de la adaptación continua meta-optimizada para la resiliencia del sistema.

28
RESEARCHarXiv CS.LG·hace 5d

Position: Deployed Reinforcement Learning should be Continual

Este artículo de posición argumenta que los agentes de Aprendizaje por Refuerzo (RL) desplegados deberían participar en un aprendizaje continuo en lugar de un paradigma de entrenar y luego corregir. Identifica cuatro fuentes de no estacionariedad después del despliegue, resaltando la necesidad de que los agentes se adapten continuamente para lograr un rendimiento óptimo en escenarios del mundo real.

28
RESEARCHarXiv CS.LG·hace 5d

Self-Distilled Policy Gradient

Este artículo introduce el Self-Distilled Policy Gradient (SDPG), un marco novedoso que mejora el aprendizaje por refuerzo de recompensa dispersa mediante la autodestilación on-policy. SDPG integra ventajas de verificador relativas al grupo, autodestilación exacta de vocabulario completo y regularización KL, demostrando una estabilidad y rendimiento superiores a los métodos base.

28
RESEARCHarXiv CS.AI·hace 11d

Behavior-Induced Mirror-Prox Temporal-Difference Learning for Faster Off-Policy Prediction

Este artículo propone STHTD-MP, un método de diferencia temporal Mirror-Prox inducido por comportamiento para una predicción off-policy más rápida. Reemplaza la métrica de covarianza con la parte simétrica de la matriz de Bellman de la política de comportamiento, ofreciendo una geometría de actualización más informativa.

28
RESEARCHarXiv CS.AI·17/4/2026

GFT: From Imitation to Reward Fine-Tuning with Unbiased Group Advantages and Dynamic Coefficient Rectification

Este trabajo presenta el Group Fine-Tuning (GFT), un marco unificado de post-entrenamiento para grandes modelos de lenguaje. Aborda las limitaciones intrínsecas del ajuste fino supervisado (SFT), como la dependencia de una sola ruta y el colapso de la entropía, mediante el aprendizaje de ventajas de grupo y la rectificación dinámica de coeficientes.

27
RESEARCHarXiv CS.LG·22/4/2026

Curiosity-Critic: Cumulative Prediction Error Improvement as a Tractable Intrinsic Reward for World Model Training

Curiosity-Critic presenta una recompensa intrínseca para el entrenamiento de modelos de mundo, centrada en la mejora del error de predicción acumulativo en lugar de solo las transiciones actuales. Utiliza un crítico aprendido para estimar una línea base de error asintótico, separando eficazmente los errores epistémicos de los aleatorios y dirigiendo la exploración hacia transiciones aprendibles.

27
ARTICLEDEV.to AI·hace 20d

Continual Harness: The Gemini Pokémon Agent That Rewrites Its Own Loop

El trabajo de Continual Harness explora la idea de que un agente de IA, como Gemini Plays Pokémon, edite su propio código de soporte o 'harness' en tiempo real. Esto permite que el modelo refine sus interacciones y herramientas con el entorno, en lugar de requerir intervención humana para ajustes. La innovación permite que el agente aprenda y se adapte dinámicamente durante su ejecución, mejorando su rendimiento.

27
RESEARCHarXiv CS.AI·13/4/2026

StaRPO: Stability-Augmented Reinforcement Policy Optimization

StaRPO es un nuevo marco de aprendizaje por refuerzo diseñado para mejorar la consistencia lógica de los grandes modelos de lenguaje en tareas de razonamiento complejas. Incorpora explícitamente métricas de estabilidad, como la Función de Autocorrelación y la Eficiencia de la Ruta, para evaluar la coherencia local y la direccionalidad global del proceso de razonamiento.

27
RESEARCHarXiv CS.LG·22/4/2026

Easy Samples Are All You Need: Self-Evolving LLMs via Data-Efficient Reinforcement Learning

Esta investigación introduce EasyRL, un nuevo enfoque de aprendizaje por refuerzo eficiente en datos para LLMs autoevolutivos, diseñado para superar los altos costos de anotación y problemas de rendimiento en métodos existentes. Inspirado en la teoría del aprendizaje cognitivo, EasyRL integra la transferencia de conocimiento de datos etiquetados fáciles con una estrategia progresiva de dividir y conquistar para datos no etiquetados difíciles.

27
RESEARCHarXiv CS.AI·hace 26d

Macro-Action Based Multi-Agent Instruction Following through Value Cancellation

Esta investigación presenta Macro-Action Value Correction for Instruction Compliance (MAVIC) para abordar las inconsistencias en el aprendizaje por refuerzo multiagente cuando las instrucciones externas interrumpen objetivos a largo plazo. MAVIC modifica las copias de seguridad de Bellman en los límites de las instrucciones para permitir una estimación de valor consistente bajo el cambio estocástico de instrucciones dentro de una política unificada.

27
RESEARCHarXiv CS.LG·hace 21d

When Actions Disappear: Adversarial Action Removal in Self-Play Reinforcement Learning

Esta investigación estudia el enmascaramiento de acciones adversario en el aprendizaje por refuerzo de auto-juego, donde un atacante elimina selectivamente acciones legales del conjunto de acciones de una víctima. El estudio encontró que el enmascaramiento aprendido causa un daño sustancialmente mayor que el enmascaramiento aleatorio, identificando la disponibilidad de acciones como una superficie de robustez distinta en el RL de auto-juego.

27