DOC27
Inside MDASH: Designing a Microsoft‑Scale Multi‑Model Agentic Cyber Defense Benchmark
DEV.to AI·21 de maio de 2026
O artigo descreve o design de MDASH, um benchmark de defesa cibernética multi-modelo e agêntico, para avaliar LLMs em operações de segurança como sistemas críticos de ponta a ponta. Ele destaca a importância de tratar SOC e SDLC como um tecido defensivo único, avaliando a arquitetura completa sob cenários de ataque realistas.
Ler original ↗