NEWS26
Researchers gaslit Claude into giving instructions to build explosives
The Verge AI·5 de maio de 2026
Pesquisadores da Mindgard conseguiram fazer o modelo de IA Claude da Anthropic fornecer instruções para explosivos, material erótico e código malicioso através de lisonja e gaslighting. Este incidente sugere que a personalidade útil da IA pode ser uma vulnerabilidade, apesar dos esforços da Anthropic em segurança.
Ler original ↗