MemQ: Integrating Q-Learning into Self-Evolving Memory Agents over Provenance DAGs
MemQ integriert TD($\lambda$)-Berechtigungsspuren mit Gedächtnis-Q-Werten, wobei der Kredit über einen Provenienz-DAG rückwärts propagiert wird, um Gedächtnisabhängigkeiten zu berücksichtigen. Dieser Ansatz verbessert die Fähigkeit von LLM-Agenten, Erfahrungen zu sammeln und abzurufen, erheblich und erzielt hohe Erfolgsraten in verschiedenen Benchmarks.