Exploration

3 items

RESEARCHarXiv CS.LG·6/4/2026

OPRIDE: Offline Preference-based Reinforcement Learning via In-Dataset Exploration

O artigo aborda a baixa eficiência de consulta em Aprendizado por Reforço Baseado em Preferências (PbRL) offline, propondo o algoritmo OPRIDE. Este algoritmo visa melhorar a eficiência de consulta através de uma estratégia de exploração informativa e um mecanismo de agendamento de desconto para mitigar a superotimização da função de recompensa.

reinforcement learning Query Efficiency Exploration Offline Learning

RESEARCHarXiv CS.AI·hace 8d

Uncertainty-Aware and Temporally Regulated Expert Advice in Reinforcement Learning for Autonomous Driving

Este trabajo presenta un marco consciente de la incertidumbre para el aprendizaje por refuerzo en la conducción autónoma, utilizando el asesoramiento de expertos para guiar la exploración de forma segura y evitar la dependencia a largo plazo. Emplea umbrales adaptativos para la activación del asesoramiento y una estrategia de compromiso-enfriamiento para regular la orientación, mostrando un rendimiento mejorado en simulaciones CARLA.

reinforcement learning autonomous driving Exploration uncertainty

NEWSMIT Tech Review AI·1/5/2026

Inexpensive seafloor-hopping submersibles could stoke deep-sea science—and mining

El buque de investigación Rainier de la NOAA está mapeando el fondo marino del Pacífico en busca de depósitos minerales críticos. Esta misión de un mes utilizará submersibles que se desplazan por el lecho marino para la ciencia y la minería en aguas profundas.

mining Exploration robotics