← heapsort-ai

Q-learning

2 items

RESEARCHarXiv CS.AI·hace 29d

MemQ: Integrating Q-Learning into Self-Evolving Memory Agents over Provenance DAGs

MemQ integra rastros de elegibilidad TD($\lambda$) con valores Q de memoria, propagando el crédito hacia atrás a través de un DAG de procedencia para tener en cuenta las dependencias entre memorias. Este enfoque mejora significativamente la capacidad de los agentes LLM para acumular y recuperar experiencia, logrando altas tasas de éxito en diversos puntos de referencia.

27
RESEARCHarXiv CS.AI·hace 28d

RankQ: Offline-to-Online Reinforcement Learning via Self-Supervised Action Ranking

RankQ es un objetivo de aprendizaje por refuerzo offline-a-online que mejora la eficiencia de la muestra utilizando conjuntos de datos pre-recopilados. Aborda el desafío de aprender un crítico preciso en grandes espacios de estado-acción mediante una pérdida de clasificación multi-término auto-supervisada, que impone un orden estructurado de las acciones y dirige la función Q hacia acciones de mayor calidad.

27