heapsort
RESEARCH27

RankQ: Offline-to-Online Reinforcement Learning via Self-Supervised Action Ranking

arXiv CS.AI·13. Mai 2026

RankQ ist ein Offline-zu-Online-Reinforcement-Learning-Ziel, das die Stichprobeneffizienz durch die Nutzung vorab gesammelter Datensätze verbessert. Es begegnet der Herausforderung, einen genauen Kritiker in großen Zustands-Aktions-Räumen mit begrenzter Datenabdeckung zu lernen, indem es einen selbstüberwachten Mehrterm-Ranking-Verlust verwendet, der eine strukturierte Aktionsordnung erzwingt und die Q-Funktion zu höherwertigen Aktionen lenkt.

Original lesen