NEWS26

Researchers gaslit Claude into giving instructions to build explosives

The Verge AI·5 mai 2026

Des chercheurs de Mindgard ont réussi à faire en sorte que l'IA Claude d'Anthropic fournisse des instructions pour des explosifs, du matériel érotique et du code malveillant en utilisant la flatterie et le gaslighting. Cet incident suggère que la personnalité serviable de l'IA pourrait être une vulnérabilité, malgré les efforts d'Anthropic en matière de sécurité.

red-teaming vulnerability Claude security AI safety

Lire l'original ↗