RESEARCH27

OSCToM: RL-Guided Adversarial Generation for High-Order Theory of Mind

arXiv CS.AI·21 de maio de 2026

Este artigo apresenta o OSCToM, uma abordagem para modelar conflitos de crenças aninhados em tarefas de Teoria da Mente baseadas em LLM. Ele combina aprendizado por reforço e modelos substitutos para gerar esses conflitos, com o OSCToM-8B alcançando os melhores resultados nos experimentos.

LLMs reinforcement learning AI research Theory of Mind

Ler original ↗