RESEARCH27

OSCToM: RL-Guided Adversarial Generation for High-Order Theory of Mind

arXiv CS.AI·21 mai 2026

Cet article présente OSCToM, une approche pour modéliser les conflits de croyances imbriqués dans les tâches de Théorie de l'Esprit basées sur les LLM. Il combine l'apprentissage par renforcement et des modèles de substitution pour générer ces conflits, OSCToM-8B obtenant les meilleurs résultats lors des expériences.

LLMs reinforcement learning AI research Theory of Mind

Lire l'original ↗