RESEARCH27
ThermoQA: A Three-Tier Benchmark for Evaluating Thermodynamic Reasoning in Large Language Models
arXiv CS.AI·23. April 2026
ThermoQA ist ein neuer dreistufiger Benchmark mit 293 Problemen der Ingenieurthermodynamik, der zur Bewertung des thermodynamischen Denkvermögens von LLMs eingeführt wurde. Führende LLMs wie Claude Opus 4.6 und GPT-5.4 erzielen hohe Punktzahlen, doch die tierübergreifende Verschlechterung bestätigt, dass das Auswendiglernen von Eigenschaften kein thermodynamisches Denkvermögen bedeutet; der Datensatz und Code sind Open-Source.
Original lesen ↗