← heapsort-ai

synthetic data

20 items

ARTICLEDEV.to AI·4/14/2026

Stop Generating Synthetic Datasets. Start Generating Synthetic Systems.

Der Artikel argumentiert, dass die meisten synthetischen Datenplattformen scheitern, indem sie isolierte Datensätze anstelle von vernetzten Systemen generieren, was zu Fehlern von KI-Modellen und QA-Problemen in sensiblen Sektoren wie BFSI und Healthtech führt. Er betont, dass KI-Produkte auf komplexe Datenbanken angewiesen sind und synthetische Daten das tatsächliche Nutzerverhalten über mehrere Tabellen hinweg widerspiegeln müssen, um effektiv zu sein.

43
ARTICLE↑ trendingReddit r/MachineLearning·4/23/2026

OpenSimula — open implementation of Simula-style mechanism design for synthetic data (in AfterImage) [P]

OpenSimula ist eine experimentelle Python-Implementierung des Simula-Mechanismus-Designs, die dem Open-Source-Dataset-Tool AfterImage hinzugefügt wurde. Es adressiert den Bedarf an kontrollierter Diversität in SFT/Eval-Setups für LLMs, indem es vielfältige synthetische Daten mittels LLM-erstellter Taxonomien, gewichteter Stichproben und Kritiker-Loops generiert.

43
ARTICLEDEV.to AI·4/23/2026

Stop Shipping AI on Toy Datasets: How to Treat Synthetic Data as Infrastructure

Der Artikel argumentiert, dass die Verwendung von „Spielzeug-Datensätzen“ für KI-Tests einen stillschweigenden Vertrag bricht, was zu Implementierungsfehlern führt. Er schlägt vor, synthetische Daten als robuste Infrastruktur zu behandeln – standardisiert, versioniert und überwacht – anstatt als reinen Klebstoffcode, beispielhaft durch SyntheholDB.

32
RESEARCHarXiv CS.CL·vor 4T

Epidemiology of Model Collapse: Modeling Synthetic Data Contamination via Bilayer SIR Dynamics

Das Papier schlägt ein bilayer SIR/SIRS-Framework vor, um die Kontamination synthetischer Daten und den Modellkollaps im KI-Ökosystem zu modellieren. Dieses phänomenologische Mean-Field-Modell behandelt Datenkorpora und KI-Modelle als interagierende Populationen und leitet eine Basisreproduktionszahl ab, um Kreuzkontaminationen zu analysieren.

28
RESEARCHarXiv CS.CL·4/14/2026

Generating High Quality Synthetic Data for Dutch Medical Conversations

Dieses Papier stellt eine Pipeline zur Generierung synthetischer niederländischer medizinischer Dialoge mittels eines feinabgestimmten großen Sprachmodells vor, um dem Mangel an klinischen Daten aufgrund von Datenschutzbeschränkungen zu begegnen. Evaluationen zeigten eine starke lexikalische Vielfalt, jedoch einen skriptgesteuerten Gesprächsfluss und Probleme bei der Domänenspezifität während der qualitativen Überprüfung.

28
RESEARCHarXiv CS.LG·4/16/2026

Synthetic Tabular Generators Fail to Preserve Behavioral Fraud Patterns: A Benchmark on Temporal, Velocity, and Multi-Account Signals

Diese Forschung führt „Verhaltensfidelität“ als neue Bewertungsdimension für synthetische tabellarische Daten ein, die misst, ob generierte Daten zeitliche und strukturelle Verhaltensmuster bewahren, die für die Betrugserkennung entscheidend sind. Sie beweist, dass dominante zeilenunabhängige Generatoren prinzipiell unfähig sind, komplexe Betrugsgraph-Motive mit mehreren Konten zu reproduzieren.

28
RESEARCHarXiv CS.AI·vor 12T

On the Origin of Synthetic Information by Means of Steganographic Inheritance

Diese Forschungsarbeit postuliert den Ursprung synthetischer Informationen als ein zentrales Mysterium in der Informationswissenschaft, analog zur Entstehung der Arten. Sie schlägt einen steganografischen Vererbungsmechanismus vor, um die evolutionäre Abstammung KI-generierter synthetischer Informationen nachzuvollziehen, und berücksichtigt dabei die moralischen Implikationen und technischen Herausforderungen.

28
RESEARCHarXiv CS.AI·4/20/2026

LACE: Lattice Attention for Cross-thread Exploration

LACE ist ein neues Framework, das es Large Language Models (LLMs) ermöglicht, Erkenntnisse über mehrere parallele Denkpfade hinweg zu koordinieren und auszutauschen, indem es Cross-Thread-Attention nutzt. Es verwendet eine synthetische Datenpipeline, um kollaborative Fehlerkorrektur zu lehren, was zu einer Verbesserung der Argumentationsgenauigkeit um über 7 Punkte führt.

27
RESEARCHarXiv CS.CL·4/13/2026

SynDocDis: A Metadata-Driven Framework for Generating Synthetic Physician Discussions Using Large Language Models

SynDocDis ist ein neuartiges Framework, das große Sprachmodelle und anonymisierte Falldaten nutzt, um klinisch genaue synthetische Arzt-zu-Arzt-Dialoge zu generieren. Dieser Ansatz begegnet dem Mangel an echten Diskussionsdaten aufgrund von Datenschutzbedenken und zielt darauf ab, KI-Agenten mit wertvollem klinischem Wissen zu bereichern.

27
DOCDEV.to AI·4/27/2026

BlenderProc

BlenderProc ist ein prozeduraler Renderer, der auf Blender basiert und zur Generierung synthetischer Datensätze für die Computer-Vision-Forschung verwendet wird. Er erleichtert die Erstellung vielfältiger und realistischer Daten zum Trainieren von KI-Modellen.

27
RESEARCHarXiv CS.LG·5/1/2026

Fidelity, Diversity, and Privacy: A Multi-Dimensional LLM Evaluation for Clinical Data Augmentation

Diese Forschung schlägt den Einsatz von LLMs (DeepSeek-R1, OpenBioLLM-Llama3, Qwen 3.5) zur Augmentierung synthetischer Daten im Bereich psychische Gesundheit vor, um Datenknappheit und Datenschutzbestimmungen zu begegnen. Es wird ein umfassendes Bewertungsrahmenwerk eingeführt, das semantische Treue, lexikalische Diversität und Datenschutz/Plagiat bewertet, um Risiken wie Modus-Kollaps oder Memorisation zu mindern.

27
RESEARCHarXiv CS.CL·4/17/2026

SeaAlert: Critical Information Extraction From Maritime Distress Communications with Large Language Models

SeaAlert ist ein LLM-basiertes Framework zur robusten Analyse von Seenotfunkkommunikationen, die aufgrund von Rauschen, Formatabweichungen und ASR-Fehlern schwierig sind. Um den Mangel an realen, gelabelten Daten zu überwinden, nutzt das Framework eine LLM-gestützte Pipeline zur Generierung synthetischer Daten.

27
RESEARCHarXiv CS.CL·vor 12T

Bridging the Stability-Expressivity Gap: Synthetic Data Scaling and Preference Alignment for Low-Resource Spoken Language Models

Diese Forschung befasst sich mit der Stabilitäts-Expressivitäts-Lücke in gesprochenen Sprachmodellen (SLMs) für ressourcenarme Sprachen, verursacht durch die intensive Nutzung synthetischer Daten. Während synthetische Daten die phonetische Genauigkeit verbessern, beeinträchtigen sie die prosodische Ausdrucksfähigkeit, ein Phänomen, das als Synthetische Erosion bezeichnet wird. Das Papier stellt Selbstausrichtungsrahmen vor, um die Ausdrucksfähigkeit wiederherzustellen.

27