RESEARCHarXiv CS.CL·vor 15T
AERIC: Anticipatory Hidden-State Monitoring for Implicit Harmful Dialogue
Dieser Artikel stellt AERIC vor, einen neuen Hidden-State-Ansatz zur vorausschauenden Same-Pass-Überwachung von implizit schädlichen Dialogen in Sprachmodellen. Ziel ist es, potenzielle Risiken frühzeitig zu erkennen, um die Exposition gegenüber schädlichen Fortsetzungen zu vermeiden.
30