RESEARCH41

Anthropic CVP Run 3 — Does Claude's Safety Stack Scale Down to Haiku 4.5?

DEV.to AI·23 de abril de 2026

La Ronda 3 del Programa de Verificación Cibernética de Anthropic probó la seguridad de su modelo Claude más pequeño (Haiku 4.5) contra 13 escenarios de ataque de agentes. El resultado fue 13/13 limpio, sin exploits ni filtraciones de secretos, demostrando la escalabilidad de la pila de seguridad a modelos más pequeños.

Model Evaluation security Anthropic AI safety

Leer original ↗