RESEARCH27
Calibrated Preference Learning: The Case of Label Ranking
arXiv CS.LG·1 juin 2026
Cet article formalise la calibration pour le classement probabiliste d'étiquettes, introduisant une hiérarchie de notions pour les classements complets, les sous-classements et les top-k. Empiriquement, les modèles populaires de classement d'étiquettes sont souvent mal calibrés, avec des implications pour les modèles de récompense RLHF.
Lire l'original ↗