heapsort
RESEARCH27

MindGames Arena Generalization Track: In2AI Solution with Delayed Per-Step Reward Attribution

arXiv CS.AI·2. Juni 2026

Diese Forschung stellt eine neue Methode zur verzögerten Belohnungszuschreibung pro Schritt für das Training von Sprachmodell-Agenten in Multi-Agenten-Strategieinteraktionen vor. Sie begegnet der Herausforderung verstrickter Ergebnisse, indem Belohnungen erst am Ende der Episode berechnet und zurückpropagiert werden, was stabiles und stichprobeneffizientes Reinforcement Learning ermöglicht.

Original lesen