RESEARCH27
RankQ: Offline-to-Online Reinforcement Learning via Self-Supervised Action Ranking
arXiv CS.AI·13. Mai 2026
RankQ ist ein Offline-zu-Online-Reinforcement-Learning-Ziel, das die Stichprobeneffizienz durch die Nutzung vorab gesammelter Datensätze verbessert. Es begegnet der Herausforderung, einen genauen Kritiker in großen Zustands-Aktions-Räumen mit begrenzter Datenabdeckung zu lernen, indem es einen selbstüberwachten Mehrterm-Ranking-Verlust verwendet, der eine strukturierte Aktionsordnung erzwingt und die Q-Funktion zu höherwertigen Aktionen lenkt.
Original lesen ↗