← heapsort-ai

multi-turn dialogue

1 items

RESEARCHarXiv CS.CL·5/8/2026

One Turn Too Late: Response-Aware Defense Against Hidden Malicious Intent in Multi-Turn Dialogue

Diese Forschung befasst sich mit der wachsenden Bedrohung durch versteckte bösartige Absichten in mehrstufigen Dialogen mit großen Sprachmodellen (LLMs), bei denen Angreifer ihre schädlichen Ziele über mehrere Interaktionen verteilen. Sie schlägt einen Frühwarnmechanismus vor, um den Zeitpunkt zu identifizieren, an dem eine Antwort schädliche Aktionen ermöglichen könnte, und führt auch den Multi-Turn Intent Dataset (MTID) für Training und Evaluierung ein.

27