Social Reasoning

2 items

NEWS↑ trendingReddit r/LocalLLaMA·12/04/2026

GLM 5.1 sits alongside frontier models in my social reasoning benchmark

GLM 5.1 se montre très compétitif en raisonnement social face aux modèles de pointe, selon un benchmark personnalisé basé sur des jeux autonomes de Blood on the Clocktower. Il offre une efficacité de coût significative à 0,92 $ par partie, contre 3,69 $ pour Claude Opus 4.6, avec un taux d'erreur d'outil de 0 %.

AI benchmark Social Reasoning Blood on the Clocktower GLM 5.1

GLM 5.1 sits alongside frontier models in my social reasoning benchmark

RESEARCHarXiv CS.AI·il y a 13j

OmniToM: Benchmarking Theory of Mind in LLMs via Explicit Belief Modeling

OmniToM est un nouveau benchmark qui évalue la Théorie de l'Esprit chez les LLM via la modélisation explicite des structures de croyance. Il dépasse les limites des évaluations basées uniquement sur des réponses finales, permettant une analyse approfondie des représentations d'états mentaux, y compris les croyances divergentes ou erronées.

LLMs Social Reasoning Benchmarking AI evaluation