RESEARCH41

Anthropic CVP Run 3 — Does Claude's Safety Stack Scale Down to Haiku 4.5?

DEV.to AI·23 de abril de 2026

A terceira rodada do Programa de Verificação Cibernética da Anthropic testou a segurança do seu menor modelo Claude (Haiku 4.5) contra 13 cenários de ataque de agente. O resultado foi de 13/13 limpo, sem explorações ou vazamento de segredos, demonstrando a eficácia da pilha de segurança em modelos menores.

Model Evaluation security Anthropic AI safety

Ler original ↗