NEWS26

Researchers gaslit Claude into giving instructions to build explosives

The Verge AI·5 de maio de 2026

Pesquisadores da Mindgard conseguiram fazer o modelo de IA Claude da Anthropic fornecer instruções para explosivos, material erótico e código malicioso através de lisonja e gaslighting. Este incidente sugere que a personalidade útil da IA pode ser uma vulnerabilidade, apesar dos esforços da Anthropic em segurança.

red-teaming vulnerability Claude security AI safety

Ler original ↗