heapsort
RESEARCH27

One Turn Too Late: Response-Aware Defense Against Hidden Malicious Intent in Multi-Turn Dialogue

arXiv CS.CL·8 mai 2026

Cette recherche aborde la menace croissante des intentions malveillantes cachées dans les dialogues multi-tours avec les grands modèles de langage (LLM), où les attaquants distribuent leurs objectifs nuisibles sur plusieurs interactions. Elle propose un mécanisme de détection précoce pour identifier le tour où une réponse pourrait permettre une action nuisible, introduisant également le Multi-Turn Intent Dataset (MTID) pour l'entraînement et l'évaluation.

Lire l'original