RESEARCH27

ThermoQA: A Three-Tier Benchmark for Evaluating Thermodynamic Reasoning in Large Language Models

arXiv CS.AI·23 de abril de 2026

Foi introduzido o ThermoQA, um novo benchmark de 293 problemas de termodinâmica de engenharia em três níveis, projetado para avaliar o raciocínio de LLMs. LLMs como Claude Opus 4.6 e GPT-5.4 lideram o placar, mas a degradação entre os níveis revela diferenças nas capacidades de raciocínio termodinâmico, com o conjunto de dados e código sendo de código aberto.

Dataset Benchmarking large language models AI evaluation

Ler original ↗