heapsort
RESEARCH27

MemQ: Integrating Q-Learning into Self-Evolving Memory Agents over Provenance DAGs

arXiv CS.AI·12 de mayo de 2026

MemQ integra rastros de elegibilidad TD($\lambda$) con valores Q de memoria, propagando el crédito hacia atrás a través de un DAG de procedencia para tener en cuenta las dependencias entre memorias. Este enfoque mejora significativamente la capacidad de los agentes LLM para acumular y recuperar experiencia, logrando altas tasas de éxito en diversos puntos de referencia.

Leer original