An Empirical Study of Multi-Generation Sampling for Jailbreak Detection in Large Language Models
Cette étude empirique examine la détection des jailbreaks dans les grands modèles linguistiques, montrant qu'une évaluation basée sur une seule sortie sous-estime la vulnérabilité. L'augmentation du nombre de générations échantillonnées, notamment d'une à un échantillonnage modéré, améliore significativement la détection des comportements nuisibles.

