RESEARCH27
ARMOR 2025: A Military-Aligned Benchmark for Evaluating Large Language Model Safety Beyond Civilian Contexts
arXiv CS.AI·4 mai 2026
ARMOR 2025 est un nouveau benchmark aligné sur l'armée pour évaluer la sécurité des grands modèles de langage (LLMs) dans les contextes de défense. Il comble une lacune en se basant sur les doctrines militaires telles que le Droit de la Guerre et les Règles d'Engagement.
Lire l'original ↗