An Empirical Study of Multi-Generation Sampling for Jailbreak Detection in Large Language Models
Este estudio empírico explora la detección de jailbreaks en grandes modelos de lenguaje, demostrando que la evaluación de una sola salida subestima la vulnerabilidad. Aumentar el número de generaciones muestreadas, especialmente de una a un muestreo moderado, mejora significativamente la detección de comportamientos dañinos.

