MemQ: Integrating Q-Learning into Self-Evolving Memory Agents over Provenance DAGs
MemQ intègre les traces d'éligibilité TD($\lambda$) aux valeurs Q de la mémoire, propageant le crédit via un DAG de provenance pour tenir compte des dépendances entre les mémoires. Cette approche améliore considérablement la capacité des agents LLM à accumuler et récupérer de l'expérience, atteignant des taux de réussite élevés sur divers benchmarks.