RESEARCH28

LinAlg-Bench: A Forensic Benchmark Revealing Structural Failure Modes in LLM Mathematical Reasoning

arXiv CS.AI·19. Mai 2026

LinAlg-Bench ist ein neuer diagnostischer Benchmark, der 10 führende große Sprachmodelle (LLMs) bei strukturierten linearen Algebra-Berechnungen bewertet und strukturelle Fehlermodi aufdeckt. Er analysiert die Leistung von LLMs über einen dimensionalen Gradienten von Matrizen, klassifiziert Fehler in zehn primäre Fehlertypen und identifiziert eine Verhaltensschwelle bei 4x4-Matrizen.

mathematical reasoning Benchmarking linear algebra AI evaluation LLM

Original lesen ↗