RESEARCH28
LinAlg-Bench: A Forensic Benchmark Revealing Structural Failure Modes in LLM Mathematical Reasoning
arXiv CS.AI·19 mai 2026
LinAlg-Bench est un nouveau benchmark diagnostique évaluant 10 modèles de langage étendus (LLM) de pointe sur le calcul d'algèbre linéaire structurée, révélant des modes de défaillance structurels. Il analyse la performance des LLM sur un gradient dimensionnel de matrices, classifiant les échecs en dix types d'erreurs primaires et identifiant un seuil comportemental aux matrices 4x4.
Lire l'original ↗