RESEARCH27
OSCToM: RL-Guided Adversarial Generation for High-Order Theory of Mind
arXiv CS.AI·21 de maio de 2026
Este artigo apresenta o OSCToM, uma abordagem para modelar conflitos de crenças aninhados em tarefas de Teoria da Mente baseadas em LLM. Ele combina aprendizado por reforço e modelos substitutos para gerar esses conflitos, com o OSCToM-8B alcançando os melhores resultados nos experimentos.
Ler original ↗