RESEARCH27

OmniToM: Benchmarking Theory of Mind in LLMs via Explicit Belief Modeling

arXiv CS.AI·27 de maio de 2026

OmniToM é um novo benchmark que avalia a Teoria da Mente em LLMs através da modelagem explícita de estruturas de crenças. Ele supera as limitações de avaliações baseadas apenas em respostas finais, permitindo analisar representações de estados mentais, incluindo crenças divergentes ou equivocadas.

LLMs Social Reasoning Benchmarking AI evaluation Theory of Mind

Ler original ↗