heapsort
RESEARCH27

RankQ: Offline-to-Online Reinforcement Learning via Self-Supervised Action Ranking

arXiv CS.AI·13 de maio de 2026

RankQ é um objetivo de aprendizado por reforço offline-para-online que melhora a eficiência amostral utilizando conjuntos de dados pré-coletados. Ele aborda o desafio de aprender um crítico preciso em grandes espaços de estado-ação, aplicando uma perda de classificação multi-termo auto-supervisionada para impor uma ordenação estruturada das ações e guiar a função Q para ações de maior qualidade.

Ler original