RESEARCH27

An Empirical Study of Multi-Generation Sampling for Jailbreak Detection in Large Language Models

arXiv CS.CL·22 de abril de 2026

Este estudo empírico explora a detecção de jailbreak em grandes modelos de linguagem, demonstrando que a avaliação de uma única saída subestima a vulnerabilidade. O aumento do número de gerações amostradas, especialmente de uma para algumas, melhora significativamente a detecção de comportamentos prejudiciais.

LLMs security AI safety

Ler original ↗