RESEARCH27

Macro-Action Based Multi-Agent Instruction Following through Value Cancellation

arXiv CS.AI·14 de maio de 2026

Esta pesquisa introduz o Macro-Action Value Correction for Instruction Compliance (MAVIC) para resolver inconsistências na aprendizagem por reforço multiagente quando instruções externas interrompem objetivos de longo prazo. O MAVIC modifica os backups de Bellman nos limites das instruções para permitir uma estimativa de valor consistente sob comutação estocástica de instruções dentro de uma política unificada.

Instruction Following reinforcement learning multi-agent systems Value Function artificial intelligence

Ler original ↗