RESEARCH31
Escaping the Agreement Trap: Defensibility Signals for Evaluating Rule-Governed AI
arXiv CS.AI·25 de abril de 2026
Este artigo propõe um novo framework para avaliar IA governada por regras, especialmente em moderação de conteúdo, superando a métrica de concordância. Ele introduz o Defensibility Index (DI), Ambiguity Index (AI) e Probabilistic Defensibility Signal (PDS) para medir a correção baseada em políticas e a estabilidade do raciocínio, utilizando traços de raciocínio de LLMs para verificar a derivabilidade lógica das regras.
LLMscontent moderationAI ethicsAI evaluation
Ler original ↗