RESEARCH27
MindGames Arena Generalization Track: In2AI Solution with Delayed Per-Step Reward Attribution
arXiv CS.AI·2 juin 2026
Cette recherche introduit une nouvelle méthode d'attribution de récompense par étape différée pour entraîner des agents de modèles de langage dans des interactions stratégiques multi-agents. Elle aborde le défi des résultats entrelacés en calculant les récompenses à la fin de l'épisode et en les propageant, permettant un apprentissage par renforcement stable et économe en échantillons.
Lire l'original ↗