Action Ranking — articles, actualités et recherches IA

RESEARCHarXiv CS.AI·il y a 28j

RankQ: Offline-to-Online Reinforcement Learning via Self-Supervised Action Ranking

RankQ est un objectif d'apprentissage par renforcement hors ligne-vers-en ligne conçu pour améliorer l'efficacité des échantillons en exploitant des ensembles de données pré-collectés. Il résout les problèmes de critiques imprécis et de couverture limitée des données en utilisant une perte de classement multi-termes auto-supervisée, qui impose un ordre d'action structuré et oriente la fonction Q vers des actions de meilleure qualité.

Offline-to-Online Learning Action Ranking reinforcement learning self-supervised learning