RESEARCH27
OSCToM: RL-Guided Adversarial Generation for High-Order Theory of Mind
arXiv CS.AI·21. Mai 2026
Dieses Papier stellt OSCToM vor, einen Ansatz zur Modellierung verschachtelter Glaubenskonflikte in LLM-basierten Theory of Mind-Aufgaben. Es kombiniert Reinforcement Learning und Kompositions-Surrogatmodelle, um diese Konflikte zu generieren, wobei OSCToM-8B in Experimenten die besten Ergebnisse erzielte.
Original lesen ↗