RESEARCHarXiv CS.AI·vor 26T
Macro-Action Based Multi-Agent Instruction Following through Value Cancellation
Diese Forschung stellt Macro-Action Value Correction for Instruction Compliance (MAVIC) vor, um Inkonsistenzen im Multi-Agenten-Reinforcement Learning zu beheben, wenn externe Anweisungen langfristige Ziele unterbrechen. MAVIC modifiziert Bellman-Backups an Anweisungsübergängen, um eine konsistente Wertschätzung unter stochastischem Anweisungswechsel innerhalb einer einheitlichen Richtlinie zu ermöglichen.
27