RESEARCH27

Escaping the Agreement Trap: Defensibility Signals for Evaluating Rule-Governed AI

arXiv CS.AI·25 avril 2026

Cet article propose un nouveau cadre pour évaluer l'IA régie par des règles, notamment dans la modération de contenu, en allant au-delà des mesures d'accord simples. Il introduit le Defensibility Index (DI), l'Ambiguity Index (AI) et le Probabilistic Defensibility Signal (PDS) pour évaluer la justesse basée sur la politique et la stabilité du raisonnement, en utilisant les traces de raisonnement des LLM pour vérifier la dérivabilité logique des règles.

LLMs content moderation AI ethics AI evaluation

Lire l'original ↗