← heapsort-ai

Social Reasoning

2 items

RESEARCHarXiv CS.AI·il y a 13j

OmniToM: Benchmarking Theory of Mind in LLMs via Explicit Belief Modeling

OmniToM est un nouveau benchmark qui évalue la Théorie de l'Esprit chez les LLM via la modélisation explicite des structures de croyance. Il dépasse les limites des évaluations basées uniquement sur des réponses finales, permettant une analyse approfondie des représentations d'états mentaux, y compris les croyances divergentes ou erronées.

27