RESEARCH27
SAT: Sequential Agent Tuning for Coordinator Free Plug and Play Multi-LLM Training with Monotonic Improvement Guarantees
arXiv CS.LG·8. Mai 2026
Sequential Agent Tuning (SAT) führt ein koordinatorfreies Trainingsparadigma für Teams kleinerer, effizienterer LLMs ein, das skalierbare, dezentrale Updates ermöglicht. Dieser theoretische Rahmen gewährleistet eine monotone Verbesserung, indem er die Besetzungsdrift mit agentenbezogenen KL-Vertrauensregionen isoliert.
Original lesen ↗