heapsort
RESEARCH27

Calibrated Preference Learning: The Case of Label Ranking

arXiv CS.LG·1 juin 2026

Cet article formalise la calibration pour le classement probabiliste d'étiquettes, introduisant une hiérarchie de notions pour les classements complets, les sous-classements et les top-k. Empiriquement, les modèles populaires de classement d'étiquettes sont souvent mal calibrés, avec des implications pour les modèles de récompense RLHF.

Lire l'original