RESEARCH27

CoFi-PGMA: Counterfactual Policy Gradients under Filtered Feedback for Multi-Agent LLMs

arXiv CS.LG·28. April 2026

CoFi-PGMA ist ein neues Framework zur Optimierung des Lernens in Multi-Agenten-LLM-Systemen, das gefiltertes Feedback in Routing- und Kollaborationsszenarien adressiert. Es führt ein kontrafaktisches Pro-Agenten-Trainingsziel basierend auf dem Grenznutzen ein, um das Lernsignal zu korrigieren.

LLMs reinforcement learning multi-agent systems

Original lesen ↗