RESEARCHarXiv CS.AI·hace 26d
Macro-Action Based Multi-Agent Instruction Following through Value Cancellation
Esta investigación presenta Macro-Action Value Correction for Instruction Compliance (MAVIC) para abordar las inconsistencias en el aprendizaje por refuerzo multiagente cuando las instrucciones externas interrumpen objetivos a largo plazo. MAVIC modifica las copias de seguridad de Bellman en los límites de las instrucciones para permitir una estimación de valor consistente bajo el cambio estocástico de instrucciones dentro de una política unificada.
27