synthetic data

20 items

RESEARCHarXiv CS.CL·vor 1T

Re-Centering Humans in LLM Personalization

Diese Arbeit untersucht die Diskrepanz in der Personalisierungsleistung von LLMs bei der Verwendung synthetischer gegenüber menschlicher Daten. Es zeigt sich, dass menschliche Daten erhebliche Systemgrenzen bei der Attributextraktion, der Attributrelevanz und der Generierung wirklich personalisierter Antworten aufdecken.

user data synthetic data LLM personalization AI evaluation

ARTICLEDEV.to AI·4/14/2026

Stop Generating Synthetic Datasets. Start Generating Synthetic Systems.

Der Artikel argumentiert, dass die meisten synthetischen Datenplattformen scheitern, indem sie isolierte Datensätze anstelle von vernetzten Systemen generieren, was zu Fehlern von KI-Modellen und QA-Problemen in sensiblen Sektoren wie BFSI und Healthtech führt. Er betont, dass KI-Produkte auf komplexe Datenbanken angewiesen sind und synthetische Daten das tatsächliche Nutzerverhalten über mehrere Tabellen hinweg widerspiegeln müssen, um effektiv zu sein.

synthetic data insurance Healthtech BFSI

ARTICLE↑ trendingReddit r/MachineLearning·4/23/2026

OpenSimula — open implementation of Simula-style mechanism design for synthetic data (in AfterImage) [P]

OpenSimula ist eine experimentelle Python-Implementierung des Simula-Mechanismus-Designs, die dem Open-Source-Dataset-Tool AfterImage hinzugefügt wurde. Es adressiert den Bedarf an kontrollierter Diversität in SFT/Eval-Setups für LLMs, indem es vielfältige synthetische Daten mittels LLM-erstellter Taxonomien, gewichteter Stichproben und Kritiker-Loops generiert.

synthetic data mechanism-design open-source-tool LLM evaluation

ARTICLEDEV.to AI·4/23/2026

Stop Shipping AI on Toy Datasets: How to Treat Synthetic Data as Infrastructure

Der Artikel argumentiert, dass die Verwendung von „Spielzeug-Datensätzen“ für KI-Tests einen stillschweigenden Vertrag bricht, was zu Implementierungsfehlern führt. Er schlägt vor, synthetische Daten als robuste Infrastruktur zu behandeln – standardisiert, versioniert und überwacht – anstatt als reinen Klebstoffcode, beispielhaft durch SyntheholDB.

synthetic data MLOps Data Infrastructure

RESEARCHHugging Face Blog·vor 5T

Task-Seeded Synthetic Q&A Generation for Nemotron Pretraining

Dieser Inhalt behandelt die Generierung synthetischer Frage-Antwort-Paare, die für das Vortraining von KI-Modellen, insbesondere Nemotron, verwendet werden. Die Technik zielt darauf ab, die Modellleistung durch künstliche Trainingsdaten zu verbessern.

synthetic data AI models pretraining Q&A generation

RESEARCHarXiv CS.CL·vor 4T

Epidemiology of Model Collapse: Modeling Synthetic Data Contamination via Bilayer SIR Dynamics

Das Papier schlägt ein bilayer SIR/SIRS-Framework vor, um die Kontamination synthetischer Daten und den Modellkollaps im KI-Ökosystem zu modellieren. Dieses phänomenologische Mean-Field-Modell behandelt Datenkorpora und KI-Modelle als interagierende Populationen und leitet eine Basisreproduktionszahl ab, um Kreuzkontaminationen zu analysieren.

synthetic data AI models data contamination model collapse

ARTICLEDEV.to AI·4/9/2026

The model looked great on validation until one real invoice broke four assumptions

O artigo relata a experiência de ajuste fino de um modelo Gemma para analisar faturas indianas. Apesar das métricas de treinamento sintéticas serem excelentes, um único documento real revelou falhas cruciais e o problema do "domain gap", destacando a importância de dados reais.

synthetic data machine learning AI

RESEARCHarXiv CS.CL·4/14/2026

Generating High Quality Synthetic Data for Dutch Medical Conversations

Dieses Papier stellt eine Pipeline zur Generierung synthetischer niederländischer medizinischer Dialoge mittels eines feinabgestimmten großen Sprachmodells vor, um dem Mangel an klinischen Daten aufgrund von Datenschutzbeschränkungen zu begegnen. Evaluationen zeigten eine starke lexikalische Vielfalt, jedoch einen skriptgesteuerten Gesprächsfluss und Probleme bei der Domänenspezifität während der qualitativen Überprüfung.

synthetic data Clinical Communication Dutch Language Medical NLP

RESEARCHarXiv CS.LG·4/16/2026

Synthetic Tabular Generators Fail to Preserve Behavioral Fraud Patterns: A Benchmark on Temporal, Velocity, and Multi-Account Signals

Diese Forschung führt „Verhaltensfidelität“ als neue Bewertungsdimension für synthetische tabellarische Daten ein, die misst, ob generierte Daten zeitliche und strukturelle Verhaltensmuster bewahren, die für die Betrugserkennung entscheidend sind. Sie beweist, dass dominante zeilenunabhängige Generatoren prinzipiell unfähig sind, komplexe Betrugsgraph-Motive mit mehreren Konten zu reproduzieren.

synthetic data fraud detection behavioral patterns

RESEARCHarXiv CS.AI·vor 12T

On the Origin of Synthetic Information by Means of Steganographic Inheritance

Diese Forschungsarbeit postuliert den Ursprung synthetischer Informationen als ein zentrales Mysterium in der Informationswissenschaft, analog zur Entstehung der Arten. Sie schlägt einen steganografischen Vererbungsmechanismus vor, um die evolutionäre Abstammung KI-generierter synthetischer Informationen nachzuvollziehen, und berücksichtigt dabei die moralischen Implikationen und technischen Herausforderungen.

information theory synthetic data steganography AI ethics

RESEARCHarXiv CS.AI·4/20/2026

LACE: Lattice Attention for Cross-thread Exploration

LACE ist ein neues Framework, das es Large Language Models (LLMs) ermöglicht, Erkenntnisse über mehrere parallele Denkpfade hinweg zu koordinieren und auszutauschen, indem es Cross-Thread-Attention nutzt. Es verwendet eine synthetische Datenpipeline, um kollaborative Fehlerkorrektur zu lehren, was zu einer Verbesserung der Argumentationsgenauigkeit um über 7 Punkte führt.

synthetic data LLMs attention mechanisms AI Reasoning

RESEARCHarXiv CS.CL·4/13/2026

SynDocDis: A Metadata-Driven Framework for Generating Synthetic Physician Discussions Using Large Language Models

SynDocDis ist ein neuartiges Framework, das große Sprachmodelle und anonymisierte Falldaten nutzt, um klinisch genaue synthetische Arzt-zu-Arzt-Dialoge zu generieren. Dieser Ansatz begegnet dem Mangel an echten Diskussionsdaten aufgrund von Datenschutzbedenken und zielt darauf ab, KI-Agenten mit wertvollem klinischem Wissen zu bereichern.

synthetic data Medical Dialogue Generation privacy healthcare AI

ARTICLEDEV.to AI·vor 6T

hat Makes a Good SFT Sample (And Why Most Synthetic Datasets Get It Wrong)

Viele feinabgestimmte Sprachmodelle zeigen eine schlechtere Leistung aufgrund minderwertiger synthetischer Daten. Das Problem liegt nicht in der Trainingskonfiguration, sondern im Fehlen von Mechanismen zur Fehlerfilterung während der Erzeugung synthetischer Daten.

synthetic data LLMs model training Fine-tuning

DOCDEV.to AI·4/27/2026

BlenderProc

BlenderProc ist ein prozeduraler Renderer, der auf Blender basiert und zur Generierung synthetischer Datensätze für die Computer-Vision-Forschung verwendet wird. Er erleichtert die Erstellung vielfältiger und realistischer Daten zum Trainieren von KI-Modellen.

synthetic data computer vision 3d-rendering AI tools

ARTICLEHugging Face Blog·4/17/2026

Building a Fast Multilingual OCR Model with Synthetic Data

Dieser Inhalt behandelt den Aufbau eines schnellen und mehrsprachigen OCR-Modells (Optical Character Recognition). Die vorgeschlagene Methodik umfasst die Nutzung synthetischer Daten für das Modelltraining und die Optimierung.

synthetic data Multilingual AI machine learning OCR

RESEARCHarXiv CS.LG·5/1/2026

Fidelity, Diversity, and Privacy: A Multi-Dimensional LLM Evaluation for Clinical Data Augmentation

Diese Forschung schlägt den Einsatz von LLMs (DeepSeek-R1, OpenBioLLM-Llama3, Qwen 3.5) zur Augmentierung synthetischer Daten im Bereich psychische Gesundheit vor, um Datenknappheit und Datenschutzbestimmungen zu begegnen. Es wird ein umfassendes Bewertungsrahmenwerk eingeführt, das semantische Treue, lexikalische Diversität und Datenschutz/Plagiat bewertet, um Risiken wie Modus-Kollaps oder Memorisation zu mindern.

synthetic data LLMs security Data Augmentation

RESEARCHarXiv CS.CL·4/17/2026

SeaAlert: Critical Information Extraction From Maritime Distress Communications with Large Language Models

SeaAlert ist ein LLM-basiertes Framework zur robusten Analyse von Seenotfunkkommunikationen, die aufgrund von Rauschen, Formatabweichungen und ASR-Fehlern schwierig sind. Um den Mangel an realen, gelabelten Daten zu überwinden, nutzt das Framework eine LLM-gestützte Pipeline zur Generierung synthetischer Daten.

synthetic data Information Extraction NLP Speech Recognition

RESEARCHarXiv CS.CL·vor 12T

Bridging the Stability-Expressivity Gap: Synthetic Data Scaling and Preference Alignment for Low-Resource Spoken Language Models

Diese Forschung befasst sich mit der Stabilitäts-Expressivitäts-Lücke in gesprochenen Sprachmodellen (SLMs) für ressourcenarme Sprachen, verursacht durch die intensive Nutzung synthetischer Daten. Während synthetische Daten die phonetische Genauigkeit verbessern, beeinträchtigen sie die prosodische Ausdrucksfähigkeit, ein Phänomen, das als Synthetische Erosion bezeichnet wird. Das Papier stellt Selbstausrichtungsrahmen vor, um die Ausdrucksfähigkeit wiederherzustellen.

synthetic data speech synthesis spoken language models Low-resource languages

DOCHugging Face Blog·4/21/2026

How to Ground a Korean AI Agent in Real Demographics with Synthetic Personas

Der Inhalt beschreibt, wie ein koreanischer KI-Agent in reale demografische Daten verankert werden kann. Es untersucht die Verwendung synthetischer Personas, um kulturell relevante und präzise KI-Antworten zu erstellen.

synthetic data localization Demographics AI agents

RESEARCHarXiv CS.AI·4/6/2026

ESL-Bench: An Event-Driven Synthetic Longitudinal Benchmark for Health Agents

ESL-Bench é um benchmark longitudinal sintético e orientado a eventos. Ele foi desenvolvido para a avaliação de agentes de saúde, provavelmente envolvendo inteligência artificial.

synthetic data Agentes de Saúde IA na Saúde Healthcare