Value Function — artigos, notícias e pesquisas de IA

RESEARCHarXiv CS.AI·26d atrás

Macro-Action Based Multi-Agent Instruction Following through Value Cancellation

Esta pesquisa introduz o Macro-Action Value Correction for Instruction Compliance (MAVIC) para resolver inconsistências na aprendizagem por reforço multiagente quando instruções externas interrompem objetivos de longo prazo. O MAVIC modifica os backups de Bellman nos limites das instruções para permitir uma estimativa de valor consistente sob comutação estocástica de instruções dentro de uma política unificada.

Instruction Following reinforcement learning multi-agent systems Value Function