RESEARCH28
LinAlg-Bench: A Forensic Benchmark Revealing Structural Failure Modes in LLM Mathematical Reasoning
arXiv CS.AI·19 de mayo de 2026
LinAlg-Bench es un nuevo benchmark diagnóstico que evalúa 10 modelos de lenguaje grandes (LLMs) de frontera en computación estructurada de álgebra lineal, revelando modos de falla estructurales. Este evalúa el rendimiento de los LLMs en un gradiente dimensional de matrices, clasificando los fallos en diez tipos de errores primarios y detectando un umbral de comportamiento en matrices de 4x4.
Leer original ↗