reinforcement learning

153 items

ARTICLEDEV.to AI·hace 4d

Agent Lightning: Train ANY AI Agents with Reinforcement Learning

Agent Lightning es un framework diseñado para entrenar cualquier agente de IA utilizando Reinforcement Learning. Su objetivo es simplificar y acelerar el proceso de desarrollo y optimización de agentes inteligentes.

reinforcement learning AI training machine learning AI agents

RESEARCHarXiv CS.LG·16/4/2026

Design Conditions for Intra-Group Learning of Sequence-Level Rewards: Token Gradient Cancellation

Este artículo presenta una condición necesaria para el diseño de algoritmos de aprendizaje intragrupal en Reinforcement Learning, exigiendo que los objetivos mantengan la intercambiabilidad de gradientes para evitar derivas irrelevantes. Propone transformaciones mínimas para restaurar esta estructura de cancelación, lo que estabiliza el entrenamiento y mejora la eficiencia de la muestra.

reinforcement learning large language models gradient dynamics model optimization

RESEARCHarXiv CS.LG·16/4/2026

Adaptive Memory Crystallization for Autonomous AI Agent Learning in Dynamic Environments

Esta investigación presenta la Cristalización Adaptativa de Memoria (AMC), una nueva arquitectura de memoria para que agentes de IA autónomos consoliden experiencias en entornos dinámicos sin olvidar conocimientos previos. AMC modela la memoria como un proceso continuo de cristalización a través de una jerarquía de tres fases, inspirada en la teoría de etiquetado sináptico y captura.

reinforcement learning machine learning memory architecture AI agents

DOCAWS Machine Learning Blog·7/5/2026

Overcoming reward signal challenges: Verifiable rewards-based reinforcement learning with GRPO on SageMaker AI

Esta publicación detalla la implementación del aprendizaje por refuerzo basado en recompensas verificables (RLVR) para mejorar el rendimiento del entrenamiento, asegurando transparencia y corrección en las señales de recompensa. Cubre técnicas como GRPO y ejemplos de pocas tomas, demostrados con el conjunto de datos GSM8K para mejorar la precisión en la resolución de problemas matemáticos.

Policy optimization reinforcement learning learning AI training

RESEARCHarXiv CS.LG·hace 17d

HealthCraft: A Reinforcement Learning Safety Environment for Emergency Medicine

El artículo presenta HealthCraft, un entorno público de aprendizaje por refuerzo para evaluar la seguridad de los modelos de lenguaje de frontera en medicina de emergencia. Se centra en la seguridad a nivel de trayectoria, el uso indebido de herramientas y la presión clínica, construido sobre un estado mundial FHIR R4 y ofreciendo 195 tareas para una evaluación exhaustiva.

LLMs evaluation reinforcement learning medical AI

RESEARCHarXiv CS.LG·6/4/2026

OPRIDE: Offline Preference-based Reinforcement Learning via In-Dataset Exploration

O artigo aborda a baixa eficiência de consulta em Aprendizado por Reforço Baseado em Preferências (PbRL) offline, propondo o algoritmo OPRIDE. Este algoritmo visa melhorar a eficiência de consulta através de uma estratégia de exploração informativa e um mecanismo de agendamento de desconto para mitigar a superotimização da função de recompensa.

reinforcement learning Query Efficiency Exploration Offline Learning

RESEARCHarXiv CS.LG·hace 27d

$\xi$-DPO: Direct Preference Optimization via Ratio Reward Margin

Este artículo propone -DPO, una optimización de preferencia directa a través del margen de recompensa de razón, para abordar el desafío del ajuste de hiperparámetros en SimPO. La investigación analiza SimPO y reformula el objetivo de preferencia para mejorar la interpretabilidad en conjuntos de datos con diferentes estructuras de brecha de recompensa.

Preference Optimization deep learning reinforcement learning Hyperparameter Tuning

RESEARCHarXiv CS.LG·hace 20d

ReCrit: Transition-Aware Reinforcement Learning for Scientific Critic Reasoning

ReCrit es un nuevo marco de aprendizaje por refuerzo diseñado para mejorar el rendimiento de los grandes modelos de lenguaje en la interacción crítica científica. Aborda el problema de que los LLM abandonen soluciones correctas después de la crítica del usuario, centrándose en las transiciones de corrección entre turnos y categorizando comportamientos como la corrección, la adulación y la robustez.

reinforcement learning learning Scientific Reasoning large language models

RESEARCHDEV.to AI·14/4/2026

Adaptive Neuro-Symbolic Planning for deep-sea exploration habitat design in hybrid quantum-classical pipelines

Un agente de aprendizaje por refuerzo diseñado para optimizar hábitats submarinos produjo un diseño inviable, revelando las limitaciones de la IA puramente sub-simbólica cuando las restricciones simbólicas no se aplican estrictamente. Esta experiencia llevó a la investigación en planificación neuro-simbólica adaptativa para diseños de misión crítica.

AI limitations Habitat Design reinforcement learning Deep-sea exploration

RESEARCHDEV.to AI·10/4/2026

Deep Reinforcement Learning for Sepsis Treatment

Este conteúdo aborda a aplicação de Aprendizado por Reforço Profundo para o tratamento de sepse, uma condição médica grave. Ele explora como técnicas avançadas de IA podem otimizar decisões terapêuticas em ambientes clínicos complexos.

Medical Treatment deep learning reinforcement learning Sepsis

RESEARCHarXiv CS.CL·21/4/2026

Reciprocal Co-Training (RCT): Coupling Gradient-Based and Non-Differentiable Models via Reinforcement Learning

Este trabajo introduce un marco de co-entrenamiento recíproco que acopla un LLM con un clasificador Random Forest mediante aprendizaje por refuerzo. Crea un bucle de retroalimentación iterativo en el que cada modelo mejora utilizando señales del otro, demostrando ganancias de rendimiento consistentes en conjuntos de datos médicos.

Random Forests LLMs reinforcement learning machine learning

RESEARCHarXiv CS.LG·23/4/2026

DR-Venus: Towards Frontier Edge-Scale Deep Research Agents with Only 10K Open Data

DR-Venus presenta un agente de investigación profunda de 4B para despliegue a escala de borde, entrenado eficazmente con solo 10K datos abiertos. Su receta de entrenamiento de dos etapas combina ajuste fino supervisado para capacidades básicas y aprendizaje por refuerzo para mejorar la fiabilidad en tareas de investigación de largo plazo, optimizando la calidad y utilización de los datos.

Edge AI reinforcement learning machine learning training SLMs

ARTICLEDEV.to AI·23/4/2026

Explainable Causal Reinforcement Learning for smart agriculture microgrid orchestration with zero-trust governance guarantees

Este artículo narra la epifanía de un desarrollador al depurar un agente de Aprendizaje por Refuerzo de caja negra que fallaba al sincronizar microrredes agrícolas inteligentes. La comprensión de que el agente carecía de entendimiento causal llevó a explorar la IA Explicable y marcos de inferencia causal para prevenir fallas de energía en cascada.

smart agriculture microgrids reinforcement learning Explainable AI

RESEARCHarXiv CS.LG·6/4/2026

From Broad Exploration to Stable Synthesis: Entropy-Guided Optimization for Autoregressive Image Generation

O artigo analisa a interação entre Chain-of-Thought (CoT) e Reinforcement Learning (RL) na geração de imagens a partir de texto (T2I) usando uma análise sistemática baseada em entropia. Ele revela que menor entropia dos tokens de imagem e do CoT textual se correlaciona com melhor qualidade de imagem, propondo a estratégia Entropy-Guided Group Relative Policy Optimization (EG-GRPO) para otimização com base na incerteza.

Optimization deep learning reinforcement learning Text-to-Image Generation

RESEARCHDEV.to AI·9/4/2026

Human-Aligned Decision Transformers for deep-sea exploration habitat design under real-time policy constraints

Este conteúdo explora uma pesquisa sobre o design de sistemas de IA que tomam decisões complexas e sequenciais em ambientes extremos, como a exploração em alto-mar. A investigação focou em integrar preferências humanas no projeto de habitats através de Decision Transformers e aprendizagem por reforço.

decision-transformers reinforcement learning Deep-sea exploration human-aligned AI

RESEARCHarXiv CS.LG·hace 21d

A Structural Threshold in Decision Capacity Governs Collapse in Self-Play Reinforcement Learning

Este artículo demuestra que un umbral en la capacidad de decisión rige el colapso en agentes de aprendizaje por refuerzo de auto-juego bajo perturbaciones de reglas. La eliminación de todas las decisiones contingentes de alcance positivo provoca un colapso rápido, mientras que preservar incluso una sola evita esta caída.

Decision Making reinforcement learning learning game theory

RESEARCHarXiv CS.LG·17/4/2026

Optimistic Policy Learning under Pessimistic Adversaries with Regret and Violation Guarantees

Esta investigación aborda el desafío de la toma de decisiones en entornos con adversarios estratégicos o factores externos, donde las políticas tradicionales pueden fallar catastróficamente en entornos críticos para la seguridad. Propone un enfoque optimista de aprendizaje de políticas diseñado para tener en cuenta estas interacciones y proporcionar garantías de arrepentimiento y violación.

reinforcement learning robust AI adversarial AI

RESEARCHarXiv CS.LG·8/4/2026

Territory Paint Wars: Diagnosing and Mitigating Failure Modes in Competitive Multi-Agent PPO

Este trabalho apresenta o ambiente Territory Paint Wars para investigar modos de falha do PPO em aprendizado por reforço multiagente competitivo. Ele identifica falhas de implementação que causam baixo desempenho e, após a correção, revela um novo problema de overfitting competitivo que prejudica a generalização.

failure modes reinforcement learning self-play PPO

RESEARCHarXiv CS.CL·23/4/2026

OThink-SRR1: Search, Refine and Reasoning with Reinforced Learning for Large Language Models

OThink-SRR1 es un marco que mejora los LLMs con un proceso iterativo de Búsqueda-Refinamiento-Razonamiento entrenado mediante aprendizaje por refuerzo. Aborda los desafíos de RAG destilando hechos relevantes de documentos recuperados, mejorando la eficiencia y precisión en QA multi-salto complejo.

multi-hop-qa LLMs reinforcement learning RAG

RESEARCHarXiv CS.LG·23/4/2026

Rethinking Reinforcement Fine-Tuning in LVLM: Convergence, Reward Decomposition, and Generalization

Esta investigación introduce el Proceso de Decisión de Markov Aumentado por Herramientas (TA-MDP) para modelar formalmente la toma de decisiones agénticas multimodales, abordando las lagunas teóricas en el ajuste fino por refuerzo para Grandes Modelos de Visión-Lenguaje (LVLMs). Examina cómo las recompensas verificables compuestas afectan la convergencia de GRPO y por qué el entrenamiento en pequeños conjuntos de datos se generaliza a dominios fuera de distribución para LVLMs agénticos.

Theoretical AI reinforcement learning vision models large language models