heapsort
RESEARCH27

MindGames Arena Generalization Track: In2AI Solution with Delayed Per-Step Reward Attribution

arXiv CS.AI·2 juin 2026

Cette recherche introduit une nouvelle méthode d'attribution de récompense par étape différée pour entraîner des agents de modèles de langage dans des interactions stratégiques multi-agents. Elle aborde le défi des résultats entrelacés en calculant les récompenses à la fin de l'épisode et en les propageant, permettant un apprentissage par renforcement stable et économe en échantillons.

Lire l'original