heapsort
RESEARCH27

One Turn Too Late: Response-Aware Defense Against Hidden Malicious Intent in Multi-Turn Dialogue

arXiv CS.CL·8. Mai 2026

Diese Forschung befasst sich mit der wachsenden Bedrohung durch versteckte bösartige Absichten in mehrstufigen Dialogen mit großen Sprachmodellen (LLMs), bei denen Angreifer ihre schädlichen Ziele über mehrere Interaktionen verteilen. Sie schlägt einen Frühwarnmechanismus vor, um den Zeitpunkt zu identifizieren, an dem eine Antwort schädliche Aktionen ermöglichen könnte, und führt auch den Multi-Turn Intent Dataset (MTID) für Training und Evaluierung ein.

Original lesen