Exploration

3 items

RESEARCHarXiv CS.LG·4/6/2026

OPRIDE: Offline Preference-based Reinforcement Learning via In-Dataset Exploration

O artigo aborda a baixa eficiência de consulta em Aprendizado por Reforço Baseado em Preferências (PbRL) offline, propondo o algoritmo OPRIDE. Este algoritmo visa melhorar a eficiência de consulta através de uma estratégia de exploração informativa e um mecanismo de agendamento de desconto para mitigar a superotimização da função de recompensa.

reinforcement learning Query Efficiency Exploration Offline Learning

RESEARCHarXiv CS.AI·vor 8T

Uncertainty-Aware and Temporally Regulated Expert Advice in Reinforcement Learning for Autonomous Driving

Dieses Papier schlägt ein unsicherheitsbewusstes Framework für Reinforcement Learning im autonomen Fahren vor, das Expertenratschläge zur sicheren Steuerung der Exploration nutzt und langfristige Abhängigkeiten vermeidet. Es verwendet adaptive Schwellenwerte für die Ratgeberauslösung und eine Commitment-Cooldown-Strategie zur Regulierung der Anleitung, wodurch eine verbesserte Leistung in CARLA-Simulationen gezeigt wird.

reinforcement learning autonomous driving Exploration uncertainty

NEWSMIT Tech Review AI·5/1/2026

Inexpensive seafloor-hopping submersibles could stoke deep-sea science—and mining

Das Forschungsschiff Rainier der NOAA kartiert den Pazifikboden auf der Suche nach kritischen Mineralvorkommen. Diese einmonatige Mission wird U-Boote, die den Meeresboden „hüpfen“, für Tiefseewissenschaft und Bergbau einsetzen.

mining Exploration robotics