RESEARCH27
CoFi-PGMA: Counterfactual Policy Gradients under Filtered Feedback for Multi-Agent LLMs
arXiv CS.LG·28. April 2026
CoFi-PGMA ist ein neues Framework zur Optimierung des Lernens in Multi-Agenten-LLM-Systemen, das gefiltertes Feedback in Routing- und Kollaborationsszenarien adressiert. Es führt ein kontrafaktisches Pro-Agenten-Trainingsziel basierend auf dem Grenznutzen ein, um das Lernsignal zu korrigieren.
Original lesen ↗