RESEARCHarXiv CS.CL·08/05/2026
One Turn Too Late: Response-Aware Defense Against Hidden Malicious Intent in Multi-Turn Dialogue
Esta pesquisa aborda a crescente ameaça de intenções maliciosas ocultas em diálogos multi-turno com grandes modelos de linguagem (LLMs), onde atacantes distribuem seu objetivo prejudicial ao longo de múltiplas interações. O trabalho propõe um mecanismo de detecção precoce para identificar o ponto em que uma resposta pode viabilizar uma ação prejudicial, introduzindo também o Multi-Turn Intent Dataset (MTID) para treinamento e avaliação.
27