RESEARCH27

An Empirical Study of Multi-Generation Sampling for Jailbreak Detection in Large Language Models

arXiv CS.CL·22 avril 2026

Cette étude empirique examine la détection des jailbreaks dans les grands modèles linguistiques, montrant qu'une évaluation basée sur une seule sortie sous-estime la vulnérabilité. L'augmentation du nombre de générations échantillonnées, notamment d'une à un échantillonnage modéré, améliore significativement la détection des comportements nuisibles.

LLMs security AI safety

Lire l'original ↗