RESEARCH27

ThermoQA: A Three-Tier Benchmark for Evaluating Thermodynamic Reasoning in Large Language Models

arXiv CS.AI·23 avril 2026

ThermoQA est un nouveau benchmark à trois niveaux de 293 problèmes de thermodynamique d'ingénierie, conçu pour évaluer le raisonnement des LLM. Les LLM de pointe comme Claude Opus 4.6 et GPT-5.4 sont en tête, mais la dégradation inter-niveaux confirme que la mémorisation des propriétés n'implique pas le raisonnement thermodynamique, avec le jeu de données et le code en open-source.

Dataset Benchmarking large language models AI evaluation

Lire l'original ↗