RESEARCHarXiv CS.AI·21d atrás
LinAlg-Bench: A Forensic Benchmark Revealing Structural Failure Modes in LLM Mathematical Reasoning
LinAlg-Bench é um novo benchmark diagnóstico que avalia 10 grandes modelos de linguagem (LLMs) em computação de álgebra linear, revelando modos de falha estrutural. Ele analisa o desempenho dos LLMs em um gradiente dimensional de matrizes, classificando falhas em dez tipos de erros primários e identificando uma transição comportamental em matrizes 4x4.
28