RESEARCH31

Escaping the Agreement Trap: Defensibility Signals for Evaluating Rule-Governed AI

arXiv CS.AI·25 de abril de 2026

Este artigo propõe um novo framework para avaliar IA governada por regras, especialmente em moderação de conteúdo, superando a métrica de concordância. Ele introduz o Defensibility Index (DI), Ambiguity Index (AI) e Probabilistic Defensibility Signal (PDS) para medir a correção baseada em políticas e a estabilidade do raciocínio, utilizando traços de raciocínio de LLMs para verificar a derivabilidade lógica das regras.

LLMscontent moderationAI ethicsAI evaluation

Ler original ↗