RESEARCHarXiv CS.CL·il y a 14j
AERIC: Anticipatory Hidden-State Monitoring for Implicit Harmful Dialogue
Cet article présente AERIC, une nouvelle approche basée sur les états cachés pour le suivi anticipatif et en un seul passage des dialogues nuisibles implicites dans les modèles de langage. Il vise à détecter les risques potentiels suffisamment tôt pour éviter l'exposition de continuations préjudiciables.
30