MemQ: Integrating Q-Learning into Self-Evolving Memory Agents over Provenance DAGs
MemQ integra rastros de elegibilidad TD($\lambda$) con valores Q de memoria, propagando el crédito hacia atrás a través de un DAG de procedencia para tener en cuenta las dependencias entre memorias. Este enfoque mejora significativamente la capacidad de los agentes LLM para acumular y recuperar experiencia, logrando altas tasas de éxito en diversos puntos de referencia.