← heapsort-ai

Instruction Following

1 items

RESEARCHarXiv CS.AI·il y a 26j

Macro-Action Based Multi-Agent Instruction Following through Value Cancellation

Cette recherche introduit Macro-Action Value Correction for Instruction Compliance (MAVIC) pour résoudre les incohérences dans l'apprentissage par renforcement multi-agents lorsque des instructions externes interrompent des objectifs à long terme. MAVIC modifie les sauvegardes de Bellman aux limites des instructions pour permettre une estimation de valeur cohérente sous commutation stochastique d'instructions au sein d'une politique unifiée.

27