MindGames Arena Generalization Track: In2AI Solution with Delayed Per-Step Reward Attribution
Esta investigación introduce un nuevo método de atribución de recompensa por paso retrasada para entrenar agentes de modelos de lenguaje en interacciones estratégicas multiagente. Aborda el desafío de los resultados entrelazados calculando las recompensas al final del episodio y propagándolas, lo que permite un aprendizaje por refuerzo estable y eficiente en muestras.