RESEARCH27
Calibrated Preference Learning: The Case of Label Ranking
arXiv CS.LG·1. Juni 2026
Dieses Papier formalisiert die Kalibrierung für probabilistisches Label-Ranking und führt eine Hierarchie von Begriffen für vollständiges, Sub-Ranking und Top-k-Ranking ein. Empirisch sind gängige Label-Ranking-Modelle oft schlecht kalibriert, mit Auswirkungen auf RLHF-Belohnungsmodelle.
Original lesen ↗