linear algebra — artigos, notícias e pesquisas de IA

RESEARCHarXiv CS.AI·21d atrás

LinAlg-Bench: A Forensic Benchmark Revealing Structural Failure Modes in LLM Mathematical Reasoning

LinAlg-Bench é um novo benchmark diagnóstico que avalia 10 grandes modelos de linguagem (LLMs) em computação de álgebra linear, revelando modos de falha estrutural. Ele analisa o desempenho dos LLMs em um gradiente dimensional de matrizes, classificando falhas em dez tipos de erros primários e identificando uma transição comportamental em matrizes 4x4.

mathematical reasoning Benchmarking linear algebra AI evaluation