heapsort
RESEARCH27

SAT: Sequential Agent Tuning for Coordinator Free Plug and Play Multi-LLM Training with Monotonic Improvement Guarantees

arXiv CS.LG·8 de mayo de 2026

Sequential Agent Tuning (SAT) presenta un paradigma de entrenamiento sin coordinador para equipos de LLMs más pequeños y eficientes, permitiendo actualizaciones descentralizadas y escalables. Este marco teórico garantiza una mejora monótona al aislar la deriva de ocupación con regiones de confianza KL por agente.

Leer original