← heapsort-ai

Q-learning

2 items

RESEARCHarXiv CS.AI·il y a 28j

MemQ: Integrating Q-Learning into Self-Evolving Memory Agents over Provenance DAGs

MemQ intègre les traces d'éligibilité TD($\lambda$) aux valeurs Q de la mémoire, propageant le crédit via un DAG de provenance pour tenir compte des dépendances entre les mémoires. Cette approche améliore considérablement la capacité des agents LLM à accumuler et récupérer de l'expérience, atteignant des taux de réussite élevés sur divers benchmarks.

27
RESEARCHarXiv CS.AI·il y a 27j

RankQ: Offline-to-Online Reinforcement Learning via Self-Supervised Action Ranking

RankQ est un objectif d'apprentissage par renforcement hors ligne-vers-en ligne conçu pour améliorer l'efficacité des échantillons en exploitant des ensembles de données pré-collectés. Il résout les problèmes de critiques imprécis et de couverture limitée des données en utilisant une perte de classement multi-termes auto-supervisée, qui impose un ordre d'action structuré et oriente la fonction Q vers des actions de meilleure qualité.

27