heapsort
RESEARCH27

Calibrated Preference Learning: The Case of Label Ranking

arXiv CS.LG·1 de junho de 2026

Este artigo formaliza a calibração para o ranqueamento probabilístico de rótulos, introduzindo uma hierarquia de noções para ranqueamentos completos, sub-ranqueamentos e top-k. Empiricamente, modelos populares de ranqueamento de rótulos são frequentemente mal calibrados, com implicações para modelos de recompensa RLHF.

Ler original