RESEARCH27

OSCToM: RL-Guided Adversarial Generation for High-Order Theory of Mind

arXiv CS.AI·21. Mai 2026

Dieses Papier stellt OSCToM vor, einen Ansatz zur Modellierung verschachtelter Glaubenskonflikte in LLM-basierten Theory of Mind-Aufgaben. Es kombiniert Reinforcement Learning und Kompositions-Surrogatmodelle, um diese Konflikte zu generieren, wobei OSCToM-8B in Experimenten die besten Ergebnisse erzielte.

LLMs reinforcement learning AI Research Theory of Mind

Original lesen ↗