RESEARCHarXiv CS.CL·hace 14d
AERIC: Anticipatory Hidden-State Monitoring for Implicit Harmful Dialogue
Este artículo presenta AERIC, un nuevo enfoque de estado oculto para el monitoreo anticipatorio y de pasada única de diálogos dañinos implícitos en modelos de lenguaje. Su objetivo es detectar riesgos potenciales lo suficientemente temprano para evitar la exposición de continuaciones perjudiciales.
30