RESEARCHarXiv CS.AI·il y a 26j
Macro-Action Based Multi-Agent Instruction Following through Value Cancellation
Cette recherche introduit Macro-Action Value Correction for Instruction Compliance (MAVIC) pour résoudre les incohérences dans l'apprentissage par renforcement multi-agents lorsque des instructions externes interrompent des objectifs à long terme. MAVIC modifie les sauvegardes de Bellman aux limites des instructions pour permettre une estimation de valeur cohérente sous commutation stochastique d'instructions au sein d'une politique unifiée.
27