← heapsort-ai

Offline-to-Online Learning

1 items

RESEARCHarXiv CS.AI·hace 28d

RankQ: Offline-to-Online Reinforcement Learning via Self-Supervised Action Ranking

RankQ es un objetivo de aprendizaje por refuerzo offline-a-online que mejora la eficiencia de la muestra utilizando conjuntos de datos pre-recopilados. Aborda el desafío de aprender un crítico preciso en grandes espacios de estado-acción mediante una pérdida de clasificación multi-término auto-supervisada, que impone un orden estructurado de las acciones y dirige la función Q hacia acciones de mayor calidad.

27