RESEARCH27
Understanding Annotator Safety Policy with Interpretability
arXiv CS.AI·9 mai 2026
L'article présente les défis de la compréhension des désaccords entre annotateurs concernant les politiques de sécurité de l'IA, pouvant provenir de défaillances opérationnelles, d'ambiguïté politique ou de pluralisme des valeurs. Il souligne la difficulté à discerner les causes profondes de ces désaccords et le manque de fiabilité du raisonnement auto-déclaré par les annotateurs.
Lire l'original ↗