RESEARCH27

ARMOR 2025: A Military-Aligned Benchmark for Evaluating Large Language Model Safety Beyond Civilian Contexts

arXiv CS.AI·4 de maio de 2026

ARMOR 2025 é um novo benchmark alinhado militarmente para avaliar a segurança de grandes modelos de linguagem (LLMs) em contextos de defesa, indo além das avaliações civis. Ele aborda a lacuna nos benchmarks existentes, baseando-se em doutrinas militares como o Direito da Guerra e as Regras de Engajamento.

ethics military AI Benchmarks AI safety LLM

Ler original ↗