RESEARCH27
ThermoQA: A Three-Tier Benchmark for Evaluating Thermodynamic Reasoning in Large Language Models
arXiv CS.AI·23 avril 2026
ThermoQA est un nouveau benchmark à trois niveaux de 293 problèmes de thermodynamique d'ingénierie, conçu pour évaluer le raisonnement des LLM. Les LLM de pointe comme Claude Opus 4.6 et GPT-5.4 sont en tête, mais la dégradation inter-niveaux confirme que la mémorisation des propriétés n'implique pas le raisonnement thermodynamique, avec le jeu de données et le code en open-source.
Lire l'original ↗