RESEARCH27

One Turn Too Late: Response-Aware Defense Against Hidden Malicious Intent in Multi-Turn Dialogue

arXiv CS.CL·8 de mayo de 2026

Esta investigación aborda la creciente amenaza de intenciones maliciosas ocultas en diálogos multiturno con grandes modelos de lenguaje (LLM), donde los atacantes distribuyen su objetivo dañino a lo largo de múltiples interacciones. Propone un mecanismo de detección temprana para identificar el turno en el que una respuesta podría habilitar una acción perjudicial, introduciendo también el Multi-Turn Intent Dataset (MTID) para entrenamiento y evaluación.

LLMs security multi-turn dialogue AI defense

Leer original ↗