RESEARCH27
One Turn Too Late: Response-Aware Defense Against Hidden Malicious Intent in Multi-Turn Dialogue
arXiv CS.CL·8 de maio de 2026
Esta pesquisa aborda a crescente ameaça de intenções maliciosas ocultas em diálogos multi-turno com grandes modelos de linguagem (LLMs), onde atacantes distribuem seu objetivo prejudicial ao longo de múltiplas interações. O trabalho propõe um mecanismo de detecção precoce para identificar o ponto em que uma resposta pode viabilizar uma ação prejudicial, introduzindo também o Multi-Turn Intent Dataset (MTID) para treinamento e avaliação.
Ler original ↗