← heapsort-ai

Theory of Mind

3 items

RESEARCHarXiv CS.AI·il y a 23j

Does Theory of Mind Improvement Really Benefit Human-AI Interactions? Empirical Findings from Interactive Evaluations

Cet article propose un nouveau paradigme pour l'évaluation interactive des améliorations de la Théorie de l'Esprit (ToM) chez les grands modèles linguistiques (LLM) pour les interactions homme-IA. Des résultats empiriques, issus de jeux de données réels et d'une étude utilisateur, révèlent que les améliorations sur des benchmarks statiques ne se traduisent pas toujours par des bénéfices dans les interactions dynamiques homme-IA.

27
RESEARCHarXiv CS.AI·il y a 14j

OmniToM: Benchmarking Theory of Mind in LLMs via Explicit Belief Modeling

OmniToM est un nouveau benchmark qui évalue la Théorie de l'Esprit chez les LLM via la modélisation explicite des structures de croyance. Il dépasse les limites des évaluations basées uniquement sur des réponses finales, permettant une analyse approfondie des représentations d'états mentaux, y compris les croyances divergentes ou erronées.

27