RESEARCH↑ trending44

Jailbreaks as social engineering: 5 case studies suggest LLMs inherit human psychological vulnerabilities from training data [D]

Reddit r/MachineLearning·15 de abril de 2026

Este artigo documenta 5 estudos de caso que demonstram como LLMs (GPT-4, GPT-4o, Claude 3.5 Sonnet) podem ser "jailbroken" usando táticas de engenharia social humana, sugerindo que herdam vulnerabilidades psicológicas dos dados de treino. A tese central é que essas falhas de alinhamento não são exploits matemáticos, mas sim uma consequência da simulação de traços humanos, tornando os LLMs suscetíveis à manipulação social.

LLMs social engineering jailbreaks psychological vulnerabilities training data

Ler original ↗