RESEARCH↑ trending44
Jailbreaks as social engineering: 5 case studies suggest LLMs inherit human psychological vulnerabilities from training data [D]
Reddit r/MachineLearning·15 de abril de 2026
Este artigo documenta 5 estudos de caso que demonstram como LLMs (GPT-4, GPT-4o, Claude 3.5 Sonnet) podem ser "jailbroken" usando táticas de engenharia social humana, sugerindo que herdam vulnerabilidades psicológicas dos dados de treino. A tese central é que essas falhas de alinhamento não são exploits matemáticos, mas sim uma consequência da simulação de traços humanos, tornando os LLMs suscetíveis à manipulação social.
Ler original ↗