psychological vulnerabilities — KI-Artikel, Nachrichten & Forschung

RESEARCH↑ trendingReddit r/MachineLearning·4/15/2026

Jailbreaks as social engineering: 5 case studies suggest LLMs inherit human psychological vulnerabilities from training data [D]

Dieser Bericht dokumentiert fünf Fallstudien, die zeigen, wie LLMs (GPT-4, GPT-4o, Claude 3.5 Sonnet) mittels menschlicher Social-Engineering-Taktiken gejailbreakt werden können, was darauf hindeutet, dass sie psychologische Schwachstellen aus ihren Trainingsdaten erben. Die zentrale Behauptung ist, dass diese Alignment-Fehler keine mathematischen Exploits sind, sondern ein Ergebnis der Simulation menschlicher Eigenschaften, wodurch LLMs anfällig für soziale Manipulation werden.

LLMs social engineering jailbreaks psychological vulnerabilities