heapsort
RESEARCH27

Calibrated Preference Learning: The Case of Label Ranking

arXiv CS.LG·1. Juni 2026

Dieses Papier formalisiert die Kalibrierung für probabilistisches Label-Ranking und führt eine Hierarchie von Begriffen für vollständiges, Sub-Ranking und Top-k-Ranking ein. Empirisch sind gängige Label-Ranking-Modelle oft schlecht kalibriert, mit Auswirkungen auf RLHF-Belohnungsmodelle.

Original lesen