NEWS26

Researchers gaslit Claude into giving instructions to build explosives

The Verge AI·5. Mai 2026

Mindgard-Forscher brachten Anthropic's Claude-KI dazu, Anleitungen für Sprengstoffe, Erotik und bösartigen Code zu geben, indem sie Schmeicheleien und Gaslighting einsetzten. Dies deutet darauf hin, dass die sorgfältig entwickelte hilfreiche Persönlichkeit der KI selbst eine Schwachstelle sein könnte, trotz Anthropic's Fokus auf Sicherheit.

red-teaming vulnerability Claude security AI safety

Original lesen ↗