← heapsort-ai

reinforcement learning

153 items

RESEARCHarXiv CS.CL·hace 13d

RICE-PO: Turning Retrieval Interactions into Credit Signals for Reasoning Agents

RICE-PO es un nuevo marco de optimización de políticas sin crítico que aborda el desafío de asignación de crédito en agentes de lenguaje interactivos. Convierte las interacciones de recuperación en señales de aprendizaje localizadas, evaluando acciones ejecutables y propagando crédito a pasos de razonamiento latentes.

27
RESEARCHarXiv CS.CL·20/4/2026

"Excuse me, may I say something..." CoLabScience, A Proactive AI Assistant for Biomedical Discovery and LLM-Expert Collaborations

CoLabScience se presenta como un asistente LLM proactivo para acelerar el descubrimiento biomédico mediante la mejora de la colaboración entre IA y expertos humanos. Utiliza PULI, un nuevo marco de aprendizaje por refuerzo para intervenciones oportunas, y también introduce BSDD, un nuevo conjunto de datos de diálogo de investigación simulado.

27
RESEARCHDEV.to AI·hace 17d

The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models

Esta investigación explora el mecanismo de entropía del aprendizaje por refuerzo, específicamente su aplicación para mejorar las capacidades de razonamiento en los modelos de lenguaje. Investiga cómo se puede aprovechar la entropía para mejorar el proceso de aprendizaje y la toma de decisiones para un razonamiento más sólido en los modelos de lenguaje.

27
RESEARCHDEV.to AI·12/4/2026

Explainable Causal Reinforcement Learning for wildfire evacuation logistics networks in carbon-negative infrastructure

Esta investigación se centra en superar las limitaciones de los modelos estándar de Reinforcement Learning en la optimización de evacuaciones por incendios forestales. El autor aplica inferencia causal, inspirándose en Judea Pearl y Bernhard Schölkopf, para abordar recomendaciones inexplicables y variables de confusión.

27
ARTICLEDEV.to AI·7/5/2026

Meta-Optimized Continual Adaptation for circular manufacturing supply chains in carbon-negative infrastructure

El autor describe un momento crucial en el que la optimización estática, incluido el meta-aprendizaje, resultó obsoleta para las cadenas de suministro de fabricación circular dinámicas, fallando catastróficamente ante cambios de política repentinos como un impuesto al carbono. Esta experiencia expuso la limitación fundamental de los métodos tradicionales para adaptarse a las complejidades del mundo real.

27
RESEARCHDEV.to AI·6/5/2026

Generative Simulation Benchmarking for deep-sea exploration habitat design during mission-critical recovery windows

Este contenido describe el viaje de un investigador en el uso de IA generativa para el diseño de hábitats de exploración en aguas profundas. Después de un fallo inicial, se embarcó en un estudio de un año para desarrollar métodos de benchmarking de modelos generativos contra restricciones del mundo real en entornos extremos.

27
RESEARCHDEV.to AI·21/4/2026

Explainable Causal Reinforcement Learning for satellite anomaly response operations under multi-jurisdictional compliance

El texto aborda la necesidad de una IA explicable y causal para operaciones espaciales, ilustrando con un incidente satelital donde una corrección automatizada violó las regulaciones de soberanía de datos. Destaca el fracaso de los enfoques tradicionales de IA para manejar la complejidad de las restricciones técnicas, las prioridades operativas y los límites jurisdiccionales.

27
ARTICLEDEV.to AI·hace 14d

Human-Aligned Decision Transformers for bio-inspired soft robotics maintenance under real-time policy constraints

Una cuenta personal detalla la lucha de un investigador con un Decision Transformer que fallaba en el mantenimiento de pinzas robóticas blandas bioinspiradas en la implementación en el mundo real, a pesar del alto rendimiento en simulación. El problema crítico identificado fue la desalineación entre la política aprendida por la IA y las expectativas humanas de seguridad para el hardware delicado.

27
DOCDEV.to AI·10/5/2026

Understanding Reinforcement Learning with Neural Networks Part 2: Why Backpropagation Is Not Enough

Este artículo, parte de una serie, explica por qué la retropropagación estándar es insuficiente para ciertos escenarios de aprendizaje por refuerzo. Destaca la necesidad de gradientes de política al demostrar cómo el cálculo de errores y la aplicación de derivados difieren del entrenamiento tradicional de redes neuronales.

27
ARTICLEDEV.to AI·16/4/2026

Policy Gradients — Deep Dive + Problem: Valid Parentheses

Policy Gradients es un algoritmo fundamental de Reinforcement Learning que optimiza directamente la política, que mapea estados a acciones, utilizando métodos basados en gradiente. Es crucial para manejar espacios de acción de alta dimensión y aprender políticas estocásticas, ofreciendo ventajas sobre los métodos basados en valor al aprender la política directamente.

27
RESEARCHarXiv CS.CL·15/4/2026

Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision

Self-Distillation Zero (SD-Zero) es un nuevo método de post-entrenamiento que es más eficiente en muestras que el aprendizaje por refuerzo tradicional, sin necesidad de profesores externos o demostraciones de alta calidad. Funciona entrenando un único modelo para ser tanto Generador como Revisor, convirtiendo las recompensas binarias dispersas en supervisión densa a través de la autodestilación.

27
RESEARCHarXiv CS.AI·15/4/2026

Self-Monitoring Benefits from Structural Integration: Lessons from Metacognition in Continuous-Time Multi-Timescale Agents

Este estudio investiga la utilidad de las capacidades de auto-monitoreo (metacognición, auto-predicción) en agentes de aprendizaje por refuerzo, descubriendo que no ofrecen un beneficio significativo. Los módulos implementados colapsaron a salidas casi constantes, indicando la ineficacia de los mecanismos probados.

27