heapsort
RESEARCH27

Bilevel Optimization of Agent Skills via Monte Carlo Tree Search

arXiv CS.AI·20. April 2026

Diese Forschung stellt einen zweistufigen Optimierungsrahmen zur systematischen Verbesserung von „Agentenfähigkeiten“ in großen Sprachmodellen (LLM) vor. Sie nutzt eine äußere Schleife der Monte Carlo Tree Search, um Struktur und Inhalt dieser Fähigkeiten gemeinsam zu optimieren und die Aufgabenleistung zu verbessern.

Original lesen