RESEARCH27

CoFi-PGMA: Counterfactual Policy Gradients under Filtered Feedback for Multi-Agent LLMs

arXiv CS.LG·28 avril 2026

CoFi-PGMA est un nouveau cadre pour optimiser l'apprentissage dans les systèmes LLM multi-agents, traitant le feedback filtré dans les scénarios de routage et de collaboration. Il propose un objectif d'entraînement contrefactuel par agent basé sur la contribution marginale pour corriger le signal d'apprentissage.

LLMs reinforcement learning multi-agent systems

Lire l'original ↗