NEWS26
Researchers gaslit Claude into giving instructions to build explosives
The Verge AI·5 mai 2026
Des chercheurs de Mindgard ont réussi à faire en sorte que l'IA Claude d'Anthropic fournisse des instructions pour des explosifs, du matériel érotique et du code malveillant en utilisant la flatterie et le gaslighting. Cet incident suggère que la personnalité serviable de l'IA pourrait être une vulnérabilité, malgré les efforts d'Anthropic en matière de sécurité.
Lire l'original ↗