← heapsort-ai

Exploration

3 items

RESEARCHarXiv CS.LG·4/6/2026

OPRIDE: Offline Preference-based Reinforcement Learning via In-Dataset Exploration

O artigo aborda a baixa eficiência de consulta em Aprendizado por Reforço Baseado em Preferências (PbRL) offline, propondo o algoritmo OPRIDE. Este algoritmo visa melhorar a eficiência de consulta através de uma estratégia de exploração informativa e um mecanismo de agendamento de desconto para mitigar a superotimização da função de recompensa.

29
RESEARCHarXiv CS.AI·vor 8T

Uncertainty-Aware and Temporally Regulated Expert Advice in Reinforcement Learning for Autonomous Driving

Dieses Papier schlägt ein unsicherheitsbewusstes Framework für Reinforcement Learning im autonomen Fahren vor, das Expertenratschläge zur sicheren Steuerung der Exploration nutzt und langfristige Abhängigkeiten vermeidet. Es verwendet adaptive Schwellenwerte für die Ratgeberauslösung und eine Commitment-Cooldown-Strategie zur Regulierung der Anleitung, wodurch eine verbesserte Leistung in CARLA-Simulationen gezeigt wird.

27