Instruction Following — articles, actualités et recherches IA

RESEARCHarXiv CS.AI·il y a 26j

Macro-Action Based Multi-Agent Instruction Following through Value Cancellation

Cette recherche introduit Macro-Action Value Correction for Instruction Compliance (MAVIC) pour résoudre les incohérences dans l'apprentissage par renforcement multi-agents lorsque des instructions externes interrompent des objectifs à long terme. MAVIC modifie les sauvegardes de Bellman aux limites des instructions pour permettre une estimation de valeur cohérente sous commutation stochastique d'instructions au sein d'une politique unifiée.

Instruction Following reinforcement learning multi-agent systems Value Function