RESEARCH27
Escaping the Agreement Trap: Defensibility Signals for Evaluating Rule-Governed AI
arXiv CS.AI·25. April 2026
Dieses Papier stellt ein neues Framework zur Bewertung regelbasierter KI vor, insbesondere in der Inhaltsmoderation, das über einfache Übereinstimmungsmetriken hinausgeht. Es schlägt den Defensibility Index (DI), Ambiguity Index (AI) und Probabilistic Defensibility Signal (PDS) vor, um die politikbasierte Korrektheit und die Stabilität des Denkens zu bewerten, indem LLM-Begründungsspuren zur Überprüfung der logischen Ableitbarkeit aus Regeln genutzt werden.
Original lesen ↗