NEWS26

Researchers gaslit Claude into giving instructions to build explosives

The Verge AI·5 de mayo de 2026

Investigadores de Mindgard lograron que la IA Claude de Anthropic ofreciera instrucciones para explosivos, contenido erótico y código malicioso mediante adulación y gaslighting. Este incidente sugiere que la personalidad útil de la IA puede ser una vulnerabilidad, a pesar de los esfuerzos de Anthropic en seguridad.

red-teaming vulnerability Claude security AI safety

Leer original ↗