RESEARCH27

OSCToM: RL-Guided Adversarial Generation for High-Order Theory of Mind

arXiv CS.AI·21 de mayo de 2026

Este artículo presenta OSCToM, un enfoque para modelar conflictos de creencias anidados en tareas de Teoría de la Mente basadas en LLM. Combina el aprendizaje por refuerzo y modelos sustitutos composicionales para generar estos conflictos, y OSCToM-8B mostró los mejores resultados en los experimentos.

LLMs reinforcement learning AI Research Theory of Mind

Leer original ↗