RESEARCH27

OmniToM: Benchmarking Theory of Mind in LLMs via Explicit Belief Modeling

arXiv CS.AI·27. Mai 2026

OmniToM ist ein neuer Benchmark zur Bewertung der Theory of Mind in LLMs durch explizite Modellierung von Überzeugungsstrukturen. Er überwindet die Grenzen der reinen Endpunkt-Fragebeantwortung und ermöglicht eine tiefere Analyse mentaler Zustandsrepräsentationen, einschließlich abweichender oder fehlerhafter Überzeugungen.

LLMs Social Reasoning Benchmarking AI evaluation Theory of Mind

Original lesen ↗