← heapsort-ai

Q-learning

2 items

RESEARCHarXiv CS.AI·29d atrás

MemQ: Integrating Q-Learning into Self-Evolving Memory Agents over Provenance DAGs

MemQ integra traços de elegibilidade TD($\lambda$) com Q-valores de memória, propagando crédito através de um DAG de proveniência para contabilizar dependências entre memórias. Esta abordagem melhora significativamente a acumulação e recuperação de experiência por agentes LLM, alcançando altas taxas de sucesso em diversos benchmarks.

27
RESEARCHarXiv CS.AI·28d atrás

RankQ: Offline-to-Online Reinforcement Learning via Self-Supervised Action Ranking

RankQ é um objetivo de aprendizado por reforço offline-para-online que melhora a eficiência amostral utilizando conjuntos de dados pré-coletados. Ele aborda o desafio de aprender um crítico preciso em grandes espaços de estado-ação, aplicando uma perda de classificação multi-termo auto-supervisionada para impor uma ordenação estruturada das ações e guiar a função Q para ações de maior qualidade.

27