RESEARCHarXiv CS.CL·8/5/2026
One Turn Too Late: Response-Aware Defense Against Hidden Malicious Intent in Multi-Turn Dialogue
Esta investigación aborda la creciente amenaza de intenciones maliciosas ocultas en diálogos multiturno con grandes modelos de lenguaje (LLM), donde los atacantes distribuyen su objetivo dañino a lo largo de múltiples interacciones. Propone un mecanismo de detección temprana para identificar el turno en el que una respuesta podría habilitar una acción perjudicial, introduciendo también el Multi-Turn Intent Dataset (MTID) para entrenamiento y evaluación.
27