heapsort
RESEARCH27

Understanding Annotator Safety Policy with Interpretability

arXiv CS.AI·9 mai 2026

L'article présente les défis de la compréhension des désaccords entre annotateurs concernant les politiques de sécurité de l'IA, pouvant provenir de défaillances opérationnelles, d'ambiguïté politique ou de pluralisme des valeurs. Il souligne la difficulté à discerner les causes profondes de ces désaccords et le manque de fiabilité du raisonnement auto-déclaré par les annotateurs.

Lire l'original