Exploration

3 items

RESEARCHarXiv CS.LG·06/04/2026

OPRIDE: Offline Preference-based Reinforcement Learning via In-Dataset Exploration

O artigo aborda a baixa eficiência de consulta em Aprendizado por Reforço Baseado em Preferências (PbRL) offline, propondo o algoritmo OPRIDE. Este algoritmo visa melhorar a eficiência de consulta através de uma estratégia de exploração informativa e um mecanismo de agendamento de desconto para mitigar a superotimização da função de recompensa.

reinforcement learning Query Efficiency Exploration Offline Learning

RESEARCHarXiv CS.AI·il y a 8j

Uncertainty-Aware and Temporally Regulated Expert Advice in Reinforcement Learning for Autonomous Driving

Cet article propose un cadre sensible à l'incertitude pour l'apprentissage par renforcement dans la conduite autonome, utilisant les conseils d'experts pour guider l'exploration en toute sécurité tout en évitant la dépendance à long terme. Il utilise des seuils adaptatifs pour le déclenchement des conseils et une stratégie de 'commitment-cooldown' pour réguler le guidage, démontrant des performances améliorées dans les simulations CARLA.

reinforcement learning autonomous driving Exploration uncertainty

NEWSMIT Tech Review AI·01/05/2026

Inexpensive seafloor-hopping submersibles could stoke deep-sea science—and mining

Le navire de recherche Rainier de la NOAA cartographie le fond marin du Pacifique à la recherche de gisements de minéraux critiques. Cette mission d'un mois utilisera des submersibles autonomes pour la science et l'exploitation minière en haute mer.

mining Exploration robotics