Theory of Mind

3 items

RESEARCHarXiv CS.AI·il y a 23j

Does Theory of Mind Improvement Really Benefit Human-AI Interactions? Empirical Findings from Interactive Evaluations

Cet article propose un nouveau paradigme pour l'évaluation interactive des améliorations de la Théorie de l'Esprit (ToM) chez les grands modèles linguistiques (LLM) pour les interactions homme-IA. Des résultats empiriques, issus de jeux de données réels et d'une étude utilisateur, révèlent que les améliorations sur des benchmarks statiques ne se traduisent pas toujours par des bénéfices dans les interactions dynamiques homme-IA.

LLMs evaluation human-AI interaction empirical study

RESEARCHarXiv CS.AI·il y a 14j

OmniToM: Benchmarking Theory of Mind in LLMs via Explicit Belief Modeling

OmniToM est un nouveau benchmark qui évalue la Théorie de l'Esprit chez les LLM via la modélisation explicite des structures de croyance. Il dépasse les limites des évaluations basées uniquement sur des réponses finales, permettant une analyse approfondie des représentations d'états mentaux, y compris les croyances divergentes ou erronées.

LLMs Social Reasoning Benchmarking AI evaluation

RESEARCHarXiv CS.AI·il y a 20j

OSCToM: RL-Guided Adversarial Generation for High-Order Theory of Mind

Cet article présente OSCToM, une approche pour modéliser les conflits de croyances imbriqués dans les tâches de Théorie de l'Esprit basées sur les LLM. Il combine l'apprentissage par renforcement et des modèles de substitution pour générer ces conflits, OSCToM-8B obtenant les meilleurs résultats lors des expériences.

LLMs reinforcement learning AI Research Theory of Mind