← heapsort-ai

Exploration

3 items

RESEARCHarXiv CS.LG·6/4/2026

OPRIDE: Offline Preference-based Reinforcement Learning via In-Dataset Exploration

O artigo aborda a baixa eficiência de consulta em Aprendizado por Reforço Baseado em Preferências (PbRL) offline, propondo o algoritmo OPRIDE. Este algoritmo visa melhorar a eficiência de consulta através de uma estratégia de exploração informativa e um mecanismo de agendamento de desconto para mitigar a superotimização da função de recompensa.

29
RESEARCHarXiv CS.AI·hace 8d

Uncertainty-Aware and Temporally Regulated Expert Advice in Reinforcement Learning for Autonomous Driving

Este trabajo presenta un marco consciente de la incertidumbre para el aprendizaje por refuerzo en la conducción autónoma, utilizando el asesoramiento de expertos para guiar la exploración de forma segura y evitar la dependencia a largo plazo. Emplea umbrales adaptativos para la activación del asesoramiento y una estrategia de compromiso-enfriamiento para regular la orientación, mostrando un rendimiento mejorado en simulaciones CARLA.

27