RESEARCH27

An Empirical Study of Multi-Generation Sampling for Jailbreak Detection in Large Language Models

arXiv CS.CL·22. April 2026

Diese empirische Studie untersucht die Jailbreak-Erkennung in großen Sprachmodellen und zeigt, dass die Bewertung einer einzelnen Ausgabe die Anfälligkeit systematisch unterschätzt. Eine Erhöhung der Anzahl der gesampelten Generationen, insbesondere von einer zu moderater Abtastung, verbessert die Erkennung schädlichen Verhaltens erheblich.

LLMs security AI safety

Original lesen ↗