MindGames Arena Generalization Track: In2AI Solution with Delayed Per-Step Reward Attribution
Cette recherche introduit une nouvelle méthode d'attribution de récompense par étape différée pour entraîner des agents de modèles de langage dans des interactions stratégiques multi-agents. Elle aborde le défi des résultats entrelacés en calculant les récompenses à la fin de l'épisode et en les propageant, permettant un apprentissage par renforcement stable et économe en échantillons.