data synthesis

4 items

RESEARCHarXiv CS.CL·4/17/2026

How to Fine-Tune a Reasoning Model? A Teacher-Student Cooperation Framework to Synthesize Student-Consistent SFT Data

Diese Forschung schlägt TESSY, ein Framework zur Datensynthese durch Lehrer-Schüler-Kooperation, vor, um Leistungsabfälle beim Fine-Tuning von Reasoning-Modellen mit von Lehrern generierten Daten zu beheben. TESSY ermöglicht die Generierung synthetischer Sequenzen, die fortschrittliches Reasoning vom Lehrer erben und gleichzeitig die stilistische Konsistenz mit der Verteilung des Schülermodells beibehalten.

data synthesis machine learning code generation large language models

RESEARCHarXiv CS.AI·vor 17T

MindLoom: Composing Thought Modes for Frontier-Level Reasoning Data Synthesis

MindLoom ist ein Framework zur Synthese von Reasoning-Daten auf Frontier-Ebene, das die begrenzte Diversität und instabile Schwierigkeitskontrolle bestehender Methoden angeht. Es zerlegt Problemlösungen in „Thought Mode Chains“ und trainiert ein Retrieval-Modell, um den Reasoning-Prozess zu leiten.

data synthesis Thought Modes LLMs AI frameworks

RESEARCHarXiv CS.CL·vor 26T

ToolWeave: Structured Synthesis of Complex Multi-Turn Tool-Calling Dialogues

ToolWeave ist ein strukturiertes Framework zur Synthese realistischer Multi-Turn-Tool-Calling-Dialoge, die für LLMs als autonome Agenten unerlässlich sind. Es behebt Herausforderungen bei der bestehenden synthetischen Datengenerierung, indem es realistische Mehrschritt-Workflows unterstützt und Parameterhalluzinationen reduziert.

data synthesis LLMs tool-calling dialogue systems

RESEARCHarXiv CS.LG·vor 6T

Geometry-Aware Tabular Diffusion

Geometry-Aware Tabular Diffusion (GATD) wird für die tabellarische Synthese eingeführt, indem Denoiser mit paarweisen Winkeln und Längen aus Spaltenwertdifferenzen erweitert werden. Es erreicht eine hochmoderne Leistung mit weniger Parametern, reduziert Form- und Trendfehler und zeigt, dass explizite relationale Überwachung die Verbesserung antreibt.

Diffusion Models data synthesis deep learning machine learning