Instruction Following — AI articles, news & research

RESEARCHarXiv CS.AI·27d ago

Macro-Action Based Multi-Agent Instruction Following through Value Cancellation

This research introduces Macro-Action Value Correction for Instruction Compliance (MAVIC) to address inconsistencies in multi-agent reinforcement learning when external instructions interrupt long-horizon objectives. MAVIC modifies Bellman backups at instruction boundaries to enable consistent value estimation under stochastic instruction switching within a unified policy.

Instruction Following reinforcement learning multi-agent systems Value Function