heapsort
RESEARCH27

Understanding Annotator Safety Policy with Interpretability

arXiv CS.AI·9. Mai 2026

Die Arbeit stellt Herausforderungen beim Verständnis von Uneinigkeiten der Annotatoren hinsichtlich der KI-Sicherheitspolitiken vor, die aus Betriebsfehlern, Richtlinienzweideutigkeit oder Wertepluralismus resultieren können. Sie hebt die Schwierigkeit hervor, die Ursachen dieser Meinungsverschiedenheiten zu erkennen, sowie die Unzuverlässigkeit selbstberichteter Begründungen der Annotatoren.

Original lesen