heapsort
RESEARCH27

Macro-Action Based Multi-Agent Instruction Following through Value Cancellation

arXiv CS.AI·14 de mayo de 2026

Esta investigación presenta Macro-Action Value Correction for Instruction Compliance (MAVIC) para abordar las inconsistencias en el aprendizaje por refuerzo multiagente cuando las instrucciones externas interrumpen objetivos a largo plazo. MAVIC modifica las copias de seguridad de Bellman en los límites de las instrucciones para permitir una estimación de valor consistente bajo el cambio estocástico de instrucciones dentro de una política unificada.

Leer original