RESEARCH27
Understanding Annotator Safety Policy with Interpretability
arXiv CS.AI·9 de maio de 2026
O artigo aborda os desafios de compreender o desacordo entre anotadores em relação às políticas de segurança de IA, que podem surgir de falhas operacionais, ambiguidade de políticas ou pluralismo de valores. Destaca a dificuldade em discernir as causas-raiz desses desacordos e a falta de confiabilidade do raciocínio auto-relatado pelos anotadores.
Ler original ↗