← heapsort-ai

Q-learning

2 items

RESEARCHarXiv CS.AI·vor 28T

MemQ: Integrating Q-Learning into Self-Evolving Memory Agents over Provenance DAGs

MemQ integriert TD($\lambda$)-Berechtigungsspuren mit Gedächtnis-Q-Werten, wobei der Kredit über einen Provenienz-DAG rückwärts propagiert wird, um Gedächtnisabhängigkeiten zu berücksichtigen. Dieser Ansatz verbessert die Fähigkeit von LLM-Agenten, Erfahrungen zu sammeln und abzurufen, erheblich und erzielt hohe Erfolgsraten in verschiedenen Benchmarks.

27
RESEARCHarXiv CS.AI·vor 27T

RankQ: Offline-to-Online Reinforcement Learning via Self-Supervised Action Ranking

RankQ ist ein Offline-zu-Online-Reinforcement-Learning-Ziel, das die Stichprobeneffizienz durch die Nutzung vorab gesammelter Datensätze verbessert. Es begegnet der Herausforderung, einen genauen Kritiker in großen Zustands-Aktions-Räumen mit begrenzter Datenabdeckung zu lernen, indem es einen selbstüberwachten Mehrterm-Ranking-Verlust verwendet, der eine strukturierte Aktionsordnung erzwingt und die Q-Funktion zu höherwertigen Aktionen lenkt.

27