RESEARCH28

LinAlg-Bench: A Forensic Benchmark Revealing Structural Failure Modes in LLM Mathematical Reasoning

arXiv CS.AI·19 mai 2026

LinAlg-Bench est un nouveau benchmark diagnostique évaluant 10 modèles de langage étendus (LLM) de pointe sur le calcul d'algèbre linéaire structurée, révélant des modes de défaillance structurels. Il analyse la performance des LLM sur un gradient dimensionnel de matrices, classifiant les échecs en dix types d'erreurs primaires et identifiant un seuil comportemental aux matrices 4x4.

mathematical reasoning benchmarking linear algebra AI evaluation LLM

Lire l'original ↗