RESEARCH41

Anthropic CVP Run 3 — Does Claude's Safety Stack Scale Down to Haiku 4.5?

DEV.to AI·23 avril 2026

La Course 3 du Programme de Vérification Cybernétique d'Anthropic a testé la sécurité de son plus petit modèle Claude (Haiku 4.5) contre 13 scénarios d'attaque par agent. Le résultat fut 13/13 propre, sans exécution de contenu exploitable ni fuite de secrets, confirmant l'efficacité de la pile de sécurité sur les modèles plus petits.

Model Evaluation security Anthropic AI safety

Lire l'original ↗