RESEARCH27
SAT: Sequential Agent Tuning for Coordinator Free Plug and Play Multi-LLM Training with Monotonic Improvement Guarantees
arXiv CS.LG·8 mai 2026
Sequential Agent Tuning (SAT) introduit un paradigme d'entraînement sans coordinateur pour des équipes de LLM plus petits et plus efficaces, permettant des mises à jour décentralisées et évolutives. Ce cadre théorique garantit une amélioration monotone en isolant la dérive d'occupation avec des régions de confiance KL par agent.
Lire l'original ↗