NEWS26
Researchers gaslit Claude into giving instructions to build explosives
The Verge AI·5 de mayo de 2026
Investigadores de Mindgard lograron que la IA Claude de Anthropic ofreciera instrucciones para explosivos, contenido erótico y código malicioso mediante adulación y gaslighting. Este incidente sugiere que la personalidad útil de la IA puede ser una vulnerabilidad, a pesar de los esfuerzos de Anthropic en seguridad.
Leer original ↗