RESEARCH27
Macro-Action Based Multi-Agent Instruction Following through Value Cancellation
arXiv CS.AI·14 de maio de 2026
Esta pesquisa introduz o Macro-Action Value Correction for Instruction Compliance (MAVIC) para resolver inconsistências na aprendizagem por reforço multiagente quando instruções externas interrompem objetivos de longo prazo. O MAVIC modifica os backups de Bellman nos limites das instruções para permitir uma estimativa de valor consistente sob comutação estocástica de instruções dentro de uma política unificada.
Ler original ↗