RESEARCH27

Escaping the Agreement Trap: Defensibility Signals for Evaluating Rule-Governed AI

arXiv CS.AI·25 de abril de 2026

Este artículo presenta un nuevo marco para evaluar la IA gobernada por reglas, especialmente en la moderación de contenido, yendo más allá de las métricas de acuerdo simples. Propone el Defensibility Index (DI), Ambiguity Index (AI) y Probabilistic Defensibility Signal (PDS) para evaluar la corrección basada en políticas y la estabilidad del razonamiento, utilizando trazas de LLM para verificar la derivabilidad lógica de las reglas.

LLMs content moderation AI ethics AI evaluation

Leer original ↗