← heapsort-ai

Value Function

1 items

RESEARCHarXiv CS.AI·26d atrás

Macro-Action Based Multi-Agent Instruction Following through Value Cancellation

Esta pesquisa introduz o Macro-Action Value Correction for Instruction Compliance (MAVIC) para resolver inconsistências na aprendizagem por reforço multiagente quando instruções externas interrompem objetivos de longo prazo. O MAVIC modifica os backups de Bellman nos limites das instruções para permitir uma estimativa de valor consistente sob comutação estocástica de instruções dentro de uma política unificada.

27