heapsort
RESEARCH27

One Turn Too Late: Response-Aware Defense Against Hidden Malicious Intent in Multi-Turn Dialogue

arXiv CS.CL·8 de maio de 2026

Esta pesquisa aborda a crescente ameaça de intenções maliciosas ocultas em diálogos multi-turno com grandes modelos de linguagem (LLMs), onde atacantes distribuem seu objetivo prejudicial ao longo de múltiplas interações. O trabalho propõe um mecanismo de detecção precoce para identificar o ponto em que uma resposta pode viabilizar uma ação prejudicial, introduzindo também o Multi-Turn Intent Dataset (MTID) para treinamento e avaliação.

Ler original