heapsort
RESEARCH27

Macro-Action Based Multi-Agent Instruction Following through Value Cancellation

arXiv CS.AI·14 de maio de 2026

Esta pesquisa introduz o Macro-Action Value Correction for Instruction Compliance (MAVIC) para resolver inconsistências na aprendizagem por reforço multiagente quando instruções externas interrompem objetivos de longo prazo. O MAVIC modifica os backups de Bellman nos limites das instruções para permitir uma estimativa de valor consistente sob comutação estocástica de instruções dentro de uma política unificada.

Ler original