RESEARCH28

LinAlg-Bench: A Forensic Benchmark Revealing Structural Failure Modes in LLM Mathematical Reasoning

arXiv CS.AI·19 de mayo de 2026

LinAlg-Bench es un nuevo benchmark diagnóstico que evalúa 10 modelos de lenguaje grandes (LLMs) de frontera en computación estructurada de álgebra lineal, revelando modos de falla estructurales. Este evalúa el rendimiento de los LLMs en un gradiente dimensional de matrices, clasificando los fallos en diez tipos de errores primarios y detectando un umbral de comportamiento en matrices de 4x4.

mathematical reasoning benchmarking linear algebra AI evaluation LLM

Leer original ↗