RESEARCH27
Macro-Action Based Multi-Agent Instruction Following through Value Cancellation
arXiv CS.AI·14 mai 2026
Cette recherche introduit Macro-Action Value Correction for Instruction Compliance (MAVIC) pour résoudre les incohérences dans l'apprentissage par renforcement multi-agents lorsque des instructions externes interrompent des objectifs à long terme. MAVIC modifie les sauvegardes de Bellman aux limites des instructions pour permettre une estimation de valeur cohérente sous commutation stochastique d'instructions au sein d'une politique unifiée.
Lire l'original ↗