Value Function — KI-Artikel, Nachrichten & Forschung

RESEARCHarXiv CS.AI·vor 26T

Macro-Action Based Multi-Agent Instruction Following through Value Cancellation

Diese Forschung stellt Macro-Action Value Correction for Instruction Compliance (MAVIC) vor, um Inkonsistenzen im Multi-Agenten-Reinforcement Learning zu beheben, wenn externe Anweisungen langfristige Ziele unterbrechen. MAVIC modifiziert Bellman-Backups an Anweisungsübergängen, um eine konsistente Wertschätzung unter stochastischem Anweisungswechsel innerhalb einer einheitlichen Richtlinie zu ermöglichen.

Instruction Following reinforcement learning multi-agent systems Value Function