RESEARCH27
CoFi-PGMA: Counterfactual Policy Gradients under Filtered Feedback for Multi-Agent LLMs
arXiv CS.LG·28 de abril de 2026
CoFi-PGMA es un nuevo marco para optimizar el aprendizaje en sistemas multiagente de LLMs, abordando la retroalimentación filtrada en escenarios de enrutamiento y colaboración. Introduce un objetivo de entrenamiento contrafactual por agente basado en la contribución marginal para corregir la señal de aprendizaje.
Leer original ↗