heapsort
RESEARCH27

RAMP: Hybrid DRL for Online Learning of Numeric Action Models

arXiv CS.AI·13 avril 2026

RAMP propose une stratégie inédite pour l'apprentissage en ligne de modèles d'action de planification numérique via des interactions avec l'environnement, intégrant le DRL, l'apprentissage de modèles d'action et la planification. Cela forme une boucle de rétroaction positive où la politique de RL collecte des données pour affiner le modèle d'action, tandis que le planificateur génère des plans pour poursuivre l'entraînement de la politique de RL.

Lire l'original