RESEARCH27

ARMOR 2025: A Military-Aligned Benchmark for Evaluating Large Language Model Safety Beyond Civilian Contexts

arXiv CS.AI·4 mai 2026

ARMOR 2025 est un nouveau benchmark aligné sur l'armée pour évaluer la sécurité des grands modèles de langage (LLMs) dans les contextes de défense. Il comble une lacune en se basant sur les doctrines militaires telles que le Droit de la Guerre et les Règles d'Engagement.

ethics military AI Benchmarks AI safety LLM

Lire l'original ↗