RESEARCH27

Macro-Action Based Multi-Agent Instruction Following through Value Cancellation

arXiv CS.AI·14 mai 2026

Cette recherche introduit Macro-Action Value Correction for Instruction Compliance (MAVIC) pour résoudre les incohérences dans l'apprentissage par renforcement multi-agents lorsque des instructions externes interrompent des objectifs à long terme. MAVIC modifie les sauvegardes de Bellman aux limites des instructions pour permettre une estimation de valeur cohérente sous commutation stochastique d'instructions au sein d'une politique unifiée.

Instruction Following reinforcement learning multi-agent systems Value Function artificial intelligence

Lire l'original ↗