RESEARCHarXiv CS.AI·il y a 28j
RankQ: Offline-to-Online Reinforcement Learning via Self-Supervised Action Ranking
RankQ est un objectif d'apprentissage par renforcement hors ligne-vers-en ligne conçu pour améliorer l'efficacité des échantillons en exploitant des ensembles de données pré-collectés. Il résout les problèmes de critiques imprécis et de couverture limitée des données en utilisant une perte de classement multi-termes auto-supervisée, qui impose un ordre d'action structuré et oriente la fonction Q vers des actions de meilleure qualité.
27