RESEARCH30
AERIC: Anticipatory Hidden-State Monitoring for Implicit Harmful Dialogue
arXiv CS.CL·26 de mayo de 2026
Este artículo presenta AERIC, un nuevo enfoque de estado oculto para el monitoreo anticipatorio y de pasada única de diálogos dañinos implícitos en modelos de lenguaje. Su objetivo es detectar riesgos potenciales lo suficientemente temprano para evitar la exposición de continuaciones perjudiciales.
Leer original ↗