← heapsort-ai

linear algebra

1 items

RESEARCHarXiv CS.AI·vor 21T

LinAlg-Bench: A Forensic Benchmark Revealing Structural Failure Modes in LLM Mathematical Reasoning

LinAlg-Bench ist ein neuer diagnostischer Benchmark, der 10 führende große Sprachmodelle (LLMs) bei strukturierten linearen Algebra-Berechnungen bewertet und strukturelle Fehlermodi aufdeckt. Er analysiert die Leistung von LLMs über einen dimensionalen Gradienten von Matrizen, klassifiziert Fehler in zehn primäre Fehlertypen und identifiziert eine Verhaltensschwelle bei 4x4-Matrizen.

28