heapsort
RESEARCH27

MindGames Arena Generalization Track: In2AI Solution with Delayed Per-Step Reward Attribution

arXiv CS.AI·2 de junho de 2026

Esta pesquisa apresenta um novo método de atribuição de recompensa atrasada por etapa para treinar agentes de modelos de linguagem em interações estratégicas multiagentes. Ele aborda o desafio de resultados interligados, calculando recompensas no final do episódio e as propagando, o que permite um aprendizado por reforço estável e eficiente em amostras.

Ler original