RESEARCH27

OmniToM: Benchmarking Theory of Mind in LLMs via Explicit Belief Modeling

arXiv CS.AI·27 mai 2026

OmniToM est un nouveau benchmark qui évalue la Théorie de l'Esprit chez les LLM via la modélisation explicite des structures de croyance. Il dépasse les limites des évaluations basées uniquement sur des réponses finales, permettant une analyse approfondie des représentations d'états mentaux, y compris les croyances divergentes ou erronées.

LLMs Social Reasoning Benchmarking AI evaluation Theory of Mind

Lire l'original ↗