RESEARCH27
OmniToM: Benchmarking Theory of Mind in LLMs via Explicit Belief Modeling
arXiv CS.AI·27 de mayo de 2026
OmniToM es un nuevo benchmark que evalúa la Teoría de la Mente en LLMs mediante el modelado explícito de estructuras de creencias. Supera las limitaciones de las evaluaciones basadas solo en respuestas finales, permitiendo analizar representaciones de estados mentales, incluyendo creencias divergentes o erróneas.
Leer original ↗