RESEARCHarXiv CS.CL·15d atrás
AERIC: Anticipatory Hidden-State Monitoring for Implicit Harmful Dialogue
Este artigo apresenta AERIC, uma nova abordagem para monitoramento antecipatório de estados ocultos em modelos de linguagem. O objetivo é detectar riscos de diálogo prejudicial implícito precocemente, antes que o conteúdo problemático seja exposto.
30