RESEARCH27
Escaping the Agreement Trap: Defensibility Signals for Evaluating Rule-Governed AI
arXiv CS.AI·25 de abril de 2026
Este artículo presenta un nuevo marco para evaluar la IA gobernada por reglas, especialmente en la moderación de contenido, yendo más allá de las métricas de acuerdo simples. Propone el Defensibility Index (DI), Ambiguity Index (AI) y Probabilistic Defensibility Signal (PDS) para evaluar la corrección basada en políticas y la estabilidad del razonamiento, utilizando trazas de LLM para verificar la derivabilidad lógica de las reglas.
Leer original ↗