RESEARCHarXiv CS.AI·13/04/2026
RAMP: Hybrid DRL for Online Learning of Numeric Action Models
RAMP propose une stratégie inédite pour l'apprentissage en ligne de modèles d'action de planification numérique via des interactions avec l'environnement, intégrant le DRL, l'apprentissage de modèles d'action et la planification. Cela forme une boucle de rétroaction positive où la politique de RL collecte des données pour affiner le modèle d'action, tandis que le planificateur génère des plans pour poursuivre l'entraînement de la politique de RL.
27