RESEARCH27
One Turn Too Late: Response-Aware Defense Against Hidden Malicious Intent in Multi-Turn Dialogue
arXiv CS.CL·8 de mayo de 2026
Esta investigación aborda la creciente amenaza de intenciones maliciosas ocultas en diálogos multiturno con grandes modelos de lenguaje (LLM), donde los atacantes distribuyen su objetivo dañino a lo largo de múltiples interacciones. Propone un mecanismo de detección temprana para identificar el turno en el que una respuesta podría habilitar una acción perjudicial, introduciendo también el Multi-Turn Intent Dataset (MTID) para entrenamiento y evaluación.
Leer original ↗