RESEARCH27
CoFi-PGMA: Counterfactual Policy Gradients under Filtered Feedback for Multi-Agent LLMs
arXiv CS.LG·28 avril 2026
CoFi-PGMA est un nouveau cadre pour optimiser l'apprentissage dans les systèmes LLM multi-agents, traitant le feedback filtré dans les scénarios de routage et de collaboration. Il propose un objectif d'entraînement contrefactuel par agent basé sur la contribution marginale pour corriger le signal d'apprentissage.
Lire l'original ↗