RESEARCH27

Escaping the Agreement Trap: Defensibility Signals for Evaluating Rule-Governed AI

arXiv CS.AI·25. April 2026

Dieses Papier stellt ein neues Framework zur Bewertung regelbasierter KI vor, insbesondere in der Inhaltsmoderation, das über einfache Übereinstimmungsmetriken hinausgeht. Es schlägt den Defensibility Index (DI), Ambiguity Index (AI) und Probabilistic Defensibility Signal (PDS) vor, um die politikbasierte Korrektheit und die Stabilität des Denkens zu bewerten, indem LLM-Begründungsspuren zur Überprüfung der logischen Ableitbarkeit aus Regeln genutzt werden.

LLMs content moderation AI ethics AI evaluation

Original lesen ↗