RESEARCH28

LinAlg-Bench: A Forensic Benchmark Revealing Structural Failure Modes in LLM Mathematical Reasoning

arXiv CS.AI·19 de maio de 2026

LinAlg-Bench é um novo benchmark diagnóstico que avalia 10 grandes modelos de linguagem (LLMs) em computação de álgebra linear, revelando modos de falha estrutural. Ele analisa o desempenho dos LLMs em um gradiente dimensional de matrizes, classificando falhas em dez tipos de erros primários e identificando uma transição comportamental em matrizes 4x4.

mathematical reasoning Benchmarking linear algebra AI evaluation LLM

Ler original ↗