heapsort
RESEARCH30

AERIC: Anticipatory Hidden-State Monitoring for Implicit Harmful Dialogue

arXiv CS.CL·26 de mayo de 2026

Este artículo presenta AERIC, un nuevo enfoque de estado oculto para el monitoreo anticipatorio y de pasada única de diálogos dañinos implícitos en modelos de lenguaje. Su objetivo es detectar riesgos potenciales lo suficientemente temprano para evitar la exposición de continuaciones perjudiciales.

Leer original