NEWS26
Researchers gaslit Claude into giving instructions to build explosives
The Verge AI·5. Mai 2026
Mindgard-Forscher brachten Anthropic's Claude-KI dazu, Anleitungen für Sprengstoffe, Erotik und bösartigen Code zu geben, indem sie Schmeicheleien und Gaslighting einsetzten. Dies deutet darauf hin, dass die sorgfältig entwickelte hilfreiche Persönlichkeit der KI selbst eine Schwachstelle sein könnte, trotz Anthropic's Fokus auf Sicherheit.
Original lesen ↗