RESEARCH27

Macro-Action Based Multi-Agent Instruction Following through Value Cancellation

arXiv CS.AI·14. Mai 2026

Diese Forschung stellt Macro-Action Value Correction for Instruction Compliance (MAVIC) vor, um Inkonsistenzen im Multi-Agenten-Reinforcement Learning zu beheben, wenn externe Anweisungen langfristige Ziele unterbrechen. MAVIC modifiziert Bellman-Backups an Anweisungsübergängen, um eine konsistente Wertschätzung unter stochastischem Anweisungswechsel innerhalb einer einheitlichen Richtlinie zu ermöglichen.

Instruction Following reinforcement learning multi-agent systems Value Function Artificial Intelligence

Original lesen ↗