RESEARCH41

Anthropic CVP Run 3 — Does Claude's Safety Stack Scale Down to Haiku 4.5?

DEV.to AI·23. April 2026

Der dritte Lauf des Anthropic Cyber Verification Program testete die Sicherheit des kleinsten Claude-Modells (Haiku 4.5) gegen 13 Agenten-Angriffsszenarien. Das Ergebnis war 13/13 sauber, ohne Exploits oder Datenlecks, was die Skalierbarkeit des Sicherheits-Stacks auf kleinere Modelle bestätigt.

Model Evaluation security Anthropic AI safety

Original lesen ↗