← heapsort-ai

reinforcement learning

153 items

RESEARCHarXiv CS.LG·16/4/2026

Design Conditions for Intra-Group Learning of Sequence-Level Rewards: Token Gradient Cancellation

Este artículo presenta una condición necesaria para el diseño de algoritmos de aprendizaje intragrupal en Reinforcement Learning, exigiendo que los objetivos mantengan la intercambiabilidad de gradientes para evitar derivas irrelevantes. Propone transformaciones mínimas para restaurar esta estructura de cancelación, lo que estabiliza el entrenamiento y mejora la eficiencia de la muestra.

29
RESEARCHarXiv CS.LG·16/4/2026

Adaptive Memory Crystallization for Autonomous AI Agent Learning in Dynamic Environments

Esta investigación presenta la Cristalización Adaptativa de Memoria (AMC), una nueva arquitectura de memoria para que agentes de IA autónomos consoliden experiencias en entornos dinámicos sin olvidar conocimientos previos. AMC modela la memoria como un proceso continuo de cristalización a través de una jerarquía de tres fases, inspirada en la teoría de etiquetado sináptico y captura.

29
DOCAWS Machine Learning Blog·7/5/2026

Overcoming reward signal challenges: Verifiable rewards-based reinforcement learning with GRPO on SageMaker AI

Esta publicación detalla la implementación del aprendizaje por refuerzo basado en recompensas verificables (RLVR) para mejorar el rendimiento del entrenamiento, asegurando transparencia y corrección en las señales de recompensa. Cubre técnicas como GRPO y ejemplos de pocas tomas, demostrados con el conjunto de datos GSM8K para mejorar la precisión en la resolución de problemas matemáticos.

29
RESEARCHarXiv CS.LG·hace 17d

HealthCraft: A Reinforcement Learning Safety Environment for Emergency Medicine

El artículo presenta HealthCraft, un entorno público de aprendizaje por refuerzo para evaluar la seguridad de los modelos de lenguaje de frontera en medicina de emergencia. Se centra en la seguridad a nivel de trayectoria, el uso indebido de herramientas y la presión clínica, construido sobre un estado mundial FHIR R4 y ofreciendo 195 tareas para una evaluación exhaustiva.

29
RESEARCHarXiv CS.LG·6/4/2026

OPRIDE: Offline Preference-based Reinforcement Learning via In-Dataset Exploration

O artigo aborda a baixa eficiência de consulta em Aprendizado por Reforço Baseado em Preferências (PbRL) offline, propondo o algoritmo OPRIDE. Este algoritmo visa melhorar a eficiência de consulta através de uma estratégia de exploração informativa e um mecanismo de agendamento de desconto para mitigar a superotimização da função de recompensa.

29
RESEARCHarXiv CS.LG·hace 27d

$\xi$-DPO: Direct Preference Optimization via Ratio Reward Margin

Este artículo propone -DPO, una optimización de preferencia directa a través del margen de recompensa de razón, para abordar el desafío del ajuste de hiperparámetros en SimPO. La investigación analiza SimPO y reformula el objetivo de preferencia para mejorar la interpretabilidad en conjuntos de datos con diferentes estructuras de brecha de recompensa.

29
RESEARCHarXiv CS.LG·hace 20d

ReCrit: Transition-Aware Reinforcement Learning for Scientific Critic Reasoning

ReCrit es un nuevo marco de aprendizaje por refuerzo diseñado para mejorar el rendimiento de los grandes modelos de lenguaje en la interacción crítica científica. Aborda el problema de que los LLM abandonen soluciones correctas después de la crítica del usuario, centrándose en las transiciones de corrección entre turnos y categorizando comportamientos como la corrección, la adulación y la robustez.

29
RESEARCHDEV.to AI·14/4/2026

Adaptive Neuro-Symbolic Planning for deep-sea exploration habitat design in hybrid quantum-classical pipelines

Un agente de aprendizaje por refuerzo diseñado para optimizar hábitats submarinos produjo un diseño inviable, revelando las limitaciones de la IA puramente sub-simbólica cuando las restricciones simbólicas no se aplican estrictamente. Esta experiencia llevó a la investigación en planificación neuro-simbólica adaptativa para diseños de misión crítica.

28
RESEARCHarXiv CS.CL·21/4/2026

Reciprocal Co-Training (RCT): Coupling Gradient-Based and Non-Differentiable Models via Reinforcement Learning

Este trabajo introduce un marco de co-entrenamiento recíproco que acopla un LLM con un clasificador Random Forest mediante aprendizaje por refuerzo. Crea un bucle de retroalimentación iterativo en el que cada modelo mejora utilizando señales del otro, demostrando ganancias de rendimiento consistentes en conjuntos de datos médicos.

28
RESEARCHarXiv CS.LG·23/4/2026

DR-Venus: Towards Frontier Edge-Scale Deep Research Agents with Only 10K Open Data

DR-Venus presenta un agente de investigación profunda de 4B para despliegue a escala de borde, entrenado eficazmente con solo 10K datos abiertos. Su receta de entrenamiento de dos etapas combina ajuste fino supervisado para capacidades básicas y aprendizaje por refuerzo para mejorar la fiabilidad en tareas de investigación de largo plazo, optimizando la calidad y utilización de los datos.

28
ARTICLEDEV.to AI·23/4/2026

Explainable Causal Reinforcement Learning for smart agriculture microgrid orchestration with zero-trust governance guarantees

Este artículo narra la epifanía de un desarrollador al depurar un agente de Aprendizaje por Refuerzo de caja negra que fallaba al sincronizar microrredes agrícolas inteligentes. La comprensión de que el agente carecía de entendimiento causal llevó a explorar la IA Explicable y marcos de inferencia causal para prevenir fallas de energía en cascada.

28
RESEARCHarXiv CS.LG·6/4/2026

From Broad Exploration to Stable Synthesis: Entropy-Guided Optimization for Autoregressive Image Generation

O artigo analisa a interação entre Chain-of-Thought (CoT) e Reinforcement Learning (RL) na geração de imagens a partir de texto (T2I) usando uma análise sistemática baseada em entropia. Ele revela que menor entropia dos tokens de imagem e do CoT textual se correlaciona com melhor qualidade de imagem, propondo a estratégia Entropy-Guided Group Relative Policy Optimization (EG-GRPO) para otimização com base na incerteza.

28
RESEARCHDEV.to AI·9/4/2026

Human-Aligned Decision Transformers for deep-sea exploration habitat design under real-time policy constraints

Este conteúdo explora uma pesquisa sobre o design de sistemas de IA que tomam decisões complexas e sequenciais em ambientes extremos, como a exploração em alto-mar. A investigação focou em integrar preferências humanas no projeto de habitats através de Decision Transformers e aprendizagem por reforço.

28
RESEARCHarXiv CS.LG·hace 21d

A Structural Threshold in Decision Capacity Governs Collapse in Self-Play Reinforcement Learning

Este artículo demuestra que un umbral en la capacidad de decisión rige el colapso en agentes de aprendizaje por refuerzo de auto-juego bajo perturbaciones de reglas. La eliminación de todas las decisiones contingentes de alcance positivo provoca un colapso rápido, mientras que preservar incluso una sola evita esta caída.

28
RESEARCHarXiv CS.LG·17/4/2026

Optimistic Policy Learning under Pessimistic Adversaries with Regret and Violation Guarantees

Esta investigación aborda el desafío de la toma de decisiones en entornos con adversarios estratégicos o factores externos, donde las políticas tradicionales pueden fallar catastróficamente en entornos críticos para la seguridad. Propone un enfoque optimista de aprendizaje de políticas diseñado para tener en cuenta estas interacciones y proporcionar garantías de arrepentimiento y violación.

28
RESEARCHarXiv CS.LG·23/4/2026

Rethinking Reinforcement Fine-Tuning in LVLM: Convergence, Reward Decomposition, and Generalization

Esta investigación introduce el Proceso de Decisión de Markov Aumentado por Herramientas (TA-MDP) para modelar formalmente la toma de decisiones agénticas multimodales, abordando las lagunas teóricas en el ajuste fino por refuerzo para Grandes Modelos de Visión-Lenguaje (LVLMs). Examina cómo las recompensas verificables compuestas afectan la convergencia de GRPO y por qué el entrenamiento en pequeños conjuntos de datos se generaliza a dominios fuera de distribución para LVLMs agénticos.

28