heapsort
RESEARCH27

RankQ: Offline-to-Online Reinforcement Learning via Self-Supervised Action Ranking

arXiv CS.AI·13 mai 2026

RankQ est un objectif d'apprentissage par renforcement hors ligne-vers-en ligne conçu pour améliorer l'efficacité des échantillons en exploitant des ensembles de données pré-collectés. Il résout les problèmes de critiques imprécis et de couverture limitée des données en utilisant une perte de classement multi-termes auto-supervisée, qui impose un ordre d'action structuré et oriente la fonction Q vers des actions de meilleure qualité.

Lire l'original