heapsort
RESEARCH27

Understanding Annotator Safety Policy with Interpretability

arXiv CS.AI·9 de maio de 2026

O artigo aborda os desafios de compreender o desacordo entre anotadores em relação às políticas de segurança de IA, que podem surgir de falhas operacionais, ambiguidade de políticas ou pluralismo de valores. Destaca a dificuldade em discernir as causas-raiz desses desacordos e a falta de confiabilidade do raciocínio auto-relatado pelos anotadores.

Ler original