heapsort
RESEARCH27

SAT: Sequential Agent Tuning for Coordinator Free Plug and Play Multi-LLM Training with Monotonic Improvement Guarantees

arXiv CS.LG·8. Mai 2026

Sequential Agent Tuning (SAT) führt ein koordinatorfreies Trainingsparadigma für Teams kleinerer, effizienterer LLMs ein, das skalierbare, dezentrale Updates ermöglicht. Dieser theoretische Rahmen gewährleistet eine monotone Verbesserung, indem er die Besetzungsdrift mit agentenbezogenen KL-Vertrauensregionen isoliert.

Original lesen