RESEARCH27
An Empirical Study of Multi-Generation Sampling for Jailbreak Detection in Large Language Models
arXiv CS.CL·22. April 2026
Diese empirische Studie untersucht die Jailbreak-Erkennung in großen Sprachmodellen und zeigt, dass die Bewertung einer einzelnen Ausgabe die Anfälligkeit systematisch unterschätzt. Eine Erhöhung der Anzahl der gesampelten Generationen, insbesondere von einer zu moderater Abtastung, verbessert die Erkennung schädlichen Verhaltens erheblich.
Original lesen ↗