RESEARCH27

CoFi-PGMA: Counterfactual Policy Gradients under Filtered Feedback for Multi-Agent LLMs

arXiv CS.LG·28 de abril de 2026

CoFi-PGMA es un nuevo marco para optimizar el aprendizaje en sistemas multiagente de LLMs, abordando la retroalimentación filtrada en escenarios de enrutamiento y colaboración. Introduce un objetivo de entrenamiento contrafactual por agente basado en la contribución marginal para corregir la señal de aprendizaje.

LLMs reinforcement learning multi-agent systems

Leer original ↗