RESEARCH27

OmniToM: Benchmarking Theory of Mind in LLMs via Explicit Belief Modeling

arXiv CS.AI·27 de mayo de 2026

OmniToM es un nuevo benchmark que evalúa la Teoría de la Mente en LLMs mediante el modelado explícito de estructuras de creencias. Supera las limitaciones de las evaluaciones basadas solo en respuestas finales, permitiendo analizar representaciones de estados mentales, incluyendo creencias divergentes o erróneas.

LLMs Social Reasoning benchmarking AI evaluation Theory of Mind

Leer original ↗