RESEARCHarXiv CS.CL·5/8/2026
One Turn Too Late: Response-Aware Defense Against Hidden Malicious Intent in Multi-Turn Dialogue
Diese Forschung befasst sich mit der wachsenden Bedrohung durch versteckte bösartige Absichten in mehrstufigen Dialogen mit großen Sprachmodellen (LLMs), bei denen Angreifer ihre schädlichen Ziele über mehrere Interaktionen verteilen. Sie schlägt einen Frühwarnmechanismus vor, um den Zeitpunkt zu identifizieren, an dem eine Antwort schädliche Aktionen ermöglichen könnte, und führt auch den Multi-Turn Intent Dataset (MTID) für Training und Evaluierung ein.
27