RESEARCH27
ThermoQA: A Three-Tier Benchmark for Evaluating Thermodynamic Reasoning in Large Language Models
arXiv CS.AI·23 de abril de 2026
Foi introduzido o ThermoQA, um novo benchmark de 293 problemas de termodinâmica de engenharia em três níveis, projetado para avaliar o raciocínio de LLMs. LLMs como Claude Opus 4.6 e GPT-5.4 lideram o placar, mas a degradação entre os níveis revela diferenças nas capacidades de raciocínio termodinâmico, com o conjunto de dados e código sendo de código aberto.
Ler original ↗