RESEARCH27
OSCToM: RL-Guided Adversarial Generation for High-Order Theory of Mind
arXiv CS.AI·21 mai 2026
Cet article présente OSCToM, une approche pour modéliser les conflits de croyances imbriqués dans les tâches de Théorie de l'Esprit basées sur les LLM. Il combine l'apprentissage par renforcement et des modèles de substitution pour générer ces conflits, OSCToM-8B obtenant les meilleurs résultats lors des expériences.
Lire l'original ↗