RESEARCH27
Macro-Action Based Multi-Agent Instruction Following through Value Cancellation
arXiv CS.AI·14. Mai 2026
Diese Forschung stellt Macro-Action Value Correction for Instruction Compliance (MAVIC) vor, um Inkonsistenzen im Multi-Agenten-Reinforcement Learning zu beheben, wenn externe Anweisungen langfristige Ziele unterbrechen. MAVIC modifiziert Bellman-Backups an Anweisungsübergängen, um eine konsistente Wertschätzung unter stochastischem Anweisungswechsel innerhalb einer einheitlichen Richtlinie zu ermöglichen.
Original lesen ↗