reinforcement learning

153 items

RESEARCHarXiv CS.CL·hace 13d

RICE-PO: Turning Retrieval Interactions into Credit Signals for Reasoning Agents

RICE-PO es un nuevo marco de optimización de políticas sin crítico que aborda el desafío de asignación de crédito en agentes de lenguaje interactivos. Convierte las interacciones de recuperación en señales de aprendizaje localizadas, evaluando acciones ejecutables y propagando crédito a pasos de razonamiento latentes.

Policy optimization reinforcement learning Retrieval systems AI agents

ARTICLEHugging Face Blog·hace 6d

Direct Preference Optimization Beyond Chatbots

Este artículo explora la Optimización de Preferencia Directa (DPO), un método para alinear modelos de IA con preferencias humanas, examinando sus aplicaciones potenciales más allá de los chatbots tradicionales. Profundiza en cómo se puede utilizar DPO en varios dominios de IA.

language models reinforcement learning learning DPO

ARTICLEAnalytics Vidhya·hace 22d

Top 10 AI Research Papers of 2025

La investigación en IA en 2025 experimentó un cambio notable de chatbots a sistemas de razonamiento, agentes autónomos y sistemas multimodales. Empresas como Google DeepMind y OpenAI impulsaron avances en áreas como agentes de codificación y sistemas de seguridad escalables.

multimodal AI reinforcement learning reasoning AI autonomous agents

RESEARCHDEV.to AI·hace 13d

Chain-of-Agents: End-to-End Agent Foundation Models via Multi-Agent Distillationand Agentic RL

Esta investigación presenta Chain-of-Agents, un marco de extremo a extremo para el desarrollo de modelos de base de agentes. Aprovecha la destilación multiagente y el aprendizaje por refuerzo agéntico para mejorar las capacidades de los agentes de IA.

AI models reinforcement learning machine learning Foundation Models

RESEARCHDEV.to AI·26/4/2026

RecoGym: A Reinforcement Learning Environment for the problem of ProductRecommendation in Online Advertising

RecoGym es un entorno de aprendizaje por refuerzo diseñado para simular problemas de recomendación de productos en publicidad online. Proporciona una plataforma para que investigadores y profesionales prueben y desarrollen nuevos algoritmos de RL para sistemas de recomendación.

Online Advertising reinforcement learning machine learning Simulation Environment

RESEARCHarXiv CS.CL·20/4/2026

"Excuse me, may I say something..." CoLabScience, A Proactive AI Assistant for Biomedical Discovery and LLM-Expert Collaborations

CoLabScience se presenta como un asistente LLM proactivo para acelerar el descubrimiento biomédico mediante la mejora de la colaboración entre IA y expertos humanos. Utiliza PULI, un nuevo marco de aprendizaje por refuerzo para intervenciones oportunas, y también introduce BSDD, un nuevo conjunto de datos de diálogo de investigación simulado.

LLMs AI collaboration reinforcement learning datasets

RESEARCHDEV.to AI·7/5/2026

ReTool: Reinforcement Learning for Strategic Tool Use in LLMs

ReTool introduce un novedoso marco de aprendizaje por refuerzo diseñado para mejorar las capacidades estratégicas de uso de herramientas en Grandes Modelos de Lenguaje. Este enfoque busca optimizar cómo los LLM seleccionan y utilizan herramientas externas para resolver tareas complejas de manera más efectiva y eficiente.

LLMs reinforcement learning machine learning tool use

RESEARCHDEV.to AI·hace 17d

The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models

Esta investigación explora el mecanismo de entropía del aprendizaje por refuerzo, específicamente su aplicación para mejorar las capacidades de razonamiento en los modelos de lenguaje. Investiga cómo se puede aprovechar la entropía para mejorar el proceso de aprendizaje y la toma de decisiones para un razonamiento más sólido en los modelos de lenguaje.

language models reinforcement learning learning Reasoning

RESEARCHDEV.to AI·12/4/2026

Explainable Causal Reinforcement Learning for wildfire evacuation logistics networks in carbon-negative infrastructure

Esta investigación se centra en superar las limitaciones de los modelos estándar de Reinforcement Learning en la optimización de evacuaciones por incendios forestales. El autor aplica inferencia causal, inspirándose en Judea Pearl y Bernhard Schölkopf, para abordar recomendaciones inexplicables y variables de confusión.

wildfire evacuation reinforcement learning Explainable AI Causal Reinforcement Learning

ARTICLEDEV.to AI·7/5/2026

Meta-Optimized Continual Adaptation for circular manufacturing supply chains in carbon-negative infrastructure

El autor describe un momento crucial en el que la optimización estática, incluido el meta-aprendizaje, resultó obsoleta para las cadenas de suministro de fabricación circular dinámicas, fallando catastróficamente ante cambios de política repentinos como un impuesto al carbono. Esta experiencia expuso la limitación fundamental de los métodos tradicionales para adaptarse a las complejidades del mundo real.

Meta-Learning carbon-negative infrastructure reinforcement learning supply chain optimization

RESEARCHDEV.to AI·6/5/2026

Generative Simulation Benchmarking for deep-sea exploration habitat design during mission-critical recovery windows

Este contenido describe el viaje de un investigador en el uso de IA generativa para el diseño de hábitats de exploración en aguas profundas. Después de un fallo inicial, se embarcó en un estudio de un año para desarrollar métodos de benchmarking de modelos generativos contra restricciones del mundo real en entornos extremos.

reinforcement learning Benchmarking Deep-sea exploration simulation

RESEARCHDEV.to AI·21/4/2026

Explainable Causal Reinforcement Learning for satellite anomaly response operations under multi-jurisdictional compliance

El texto aborda la necesidad de una IA explicable y causal para operaciones espaciales, ilustrando con un incidente satelital donde una corrección automatizada violó las regulaciones de soberanía de datos. Destaca el fracaso de los enfoques tradicionales de IA para manejar la complejidad de las restricciones técnicas, las prioridades operativas y los límites jurisdiccionales.

Anomaly Detection Aerospace AI reinforcement learning Explainable AI

RESEARCHDEV.to AI·1/5/2026

Deep Dyna-Q: Integrating Planning for Task-Completion Dialogue Policy Learning

Este contenido trata sobre Deep Dyna-Q, un enfoque que integra la planificación para el aprendizaje de políticas de diálogo en sistemas conversacionales de IA. El objetivo es optimizar el proceso de completar tareas a través de la interacción dialogada con la IA.

reinforcement learning Natural Language Processing AI algorithms dialogue systems

ARTICLEDEV.to AI·hace 14d

Human-Aligned Decision Transformers for bio-inspired soft robotics maintenance under real-time policy constraints

Una cuenta personal detalla la lucha de un investigador con un Decision Transformer que fallaba en el mantenimiento de pinzas robóticas blandas bioinspiradas en la implementación en el mundo real, a pesar del alto rendimiento en simulación. El problema crítico identificado fue la desalineación entre la política aprendida por la IA y las expectativas humanas de seguridad para el hardware delicado.

decision-transformers reinforcement learning learning maintenance

DOCDEV.to AI·10/5/2026

Understanding Reinforcement Learning with Neural Networks Part 2: Why Backpropagation Is Not Enough

Este artículo, parte de una serie, explica por qué la retropropagación estándar es insuficiente para ciertos escenarios de aprendizaje por refuerzo. Destaca la necesidad de gradientes de política al demostrar cómo el cálculo de errores y la aplicación de derivados difieren del entrenamiento tradicional de redes neuronales.

neural networks reinforcement learning learning backpropagation

ARTICLEHugging Face Blog·6/5/2026

vLLM V0 to V1: Correctness Before Corrections in RL

Este contenido aborda la transición de vLLM V0 a V1, centrándose en la importancia de la corrección antes que las correcciones en el aprendizaje por refuerzo. Explora principios de desarrollo y mejoras para garantizar la integridad y el rendimiento en sistemas de IA.

LLMs reinforcement learning machine learning AI development

RESEARCHDEV.to AI·hace 26d

Episodic Exploration for Deep Deterministic Policies: An Application toStarCraft Micromanagement Tasks

Este trabajo de investigación introduce técnicas de exploración episódica aplicadas a políticas determinísticas profundas. Se centra en mejorar el rendimiento de la IA en tareas complejas de micromanipulación de StarCraft.

Episodic Exploration deep learning reinforcement learning Game AI

ARTICLEDEV.to AI·16/4/2026

Policy Gradients — Deep Dive + Problem: Valid Parentheses

Policy Gradients es un algoritmo fundamental de Reinforcement Learning que optimiza directamente la política, que mapea estados a acciones, utilizando métodos basados en gradiente. Es crucial para manejar espacios de acción de alta dimensión y aprender políticas estocásticas, ofreciendo ventajas sobre los métodos basados en valor al aprender la política directamente.

reinforcement learning machine learning Policy Gradients

RESEARCHarXiv CS.CL·15/4/2026

Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision

Self-Distillation Zero (SD-Zero) es un nuevo método de post-entrenamiento que es más eficiente en muestras que el aprendizaje por refuerzo tradicional, sin necesidad de profesores externos o demostraciones de alta calidad. Funciona entrenando un único modelo para ser tanto Generador como Revisor, convirtiendo las recompensas binarias dispersas en supervisión densa a través de la autodestilación.

reinforcement learning post-training Dense Supervision Self-Distillation

RESEARCHarXiv CS.AI·15/4/2026

Self-Monitoring Benefits from Structural Integration: Lessons from Metacognition in Continuous-Time Multi-Timescale Agents

Este estudio investiga la utilidad de las capacidades de auto-monitoreo (metacognición, auto-predicción) en agentes de aprendizaje por refuerzo, descubriendo que no ofrecen un beneficio significativo. Los módulos implementados colapsaron a salidas casi constantes, indicando la ineficacia de los mecanismos probados.

reinforcement learning Metacognition self-monitoring continuous-time agents