synthetic data

20 items

RESEARCHarXiv CS.CL·il y a 1j

Re-Centering Humans in LLM Personalization

Cet article étudie l'écart de performance de la personnalisation des LLM entre les données synthétiques et humaines. Il révèle que les données humaines exposent des limitations significatives du système dans l'extraction d'attributs, la pertinence des attributs et la génération de réponses véritablement personnalisées.

user data synthetic data LLM personalization AI evaluation

ARTICLEDEV.to AI·14/04/2026

Stop Generating Synthetic Datasets. Start Generating Synthetic Systems.

L'article critique le fait que la plupart des plateformes de données synthétiques génèrent des ensembles de données isolés plutôt que des systèmes interconnectés, entraînant des défaillances de modèles d'IA et des problèmes d'assurance qualité dans des secteurs comme la BFSI et la santé. Il souligne que les produits d'IA reposent sur des bases de données complexes, exigeant que les données synthétiques reflètent le comportement réel des utilisateurs à travers plusieurs tables.

synthetic data insurance Healthtech BFSI

ARTICLE↑ trendingReddit r/MachineLearning·23/04/2026

OpenSimula — open implementation of Simula-style mechanism design for synthetic data (in AfterImage) [P]

OpenSimula est une implémentation Python expérimentale de la conception de mécanismes Simula, ajoutée à l'outil de jeu de données open-source AfterImage. Il vise à créer une diversité contrôlée de données synthétiques pour les configurations SFT/éval d'LLM, en utilisant des taxonomies basées sur des LLM et des boucles de critique.

synthetic data mechanism-design open-source-tool LLM evaluation

ARTICLEDEV.to AI·23/04/2026

Stop Shipping AI on Toy Datasets: How to Treat Synthetic Data as Infrastructure

L'article soutient que l'utilisation de "jeux de données jouets" pour les tests d'IA viole un contrat tacite, entraînant des échecs de déploiement. Il propose de traiter les données synthétiques comme une infrastructure robuste — standardisée, versionnée et surveillée — plutôt que comme du simple code "glue", illustré par SyntheholDB.

synthetic data MLOps Data Infrastructure

RESEARCHHugging Face Blog·il y a 5j

Task-Seeded Synthetic Q&A Generation for Nemotron Pretraining

Ce contenu traite de la génération de paires de questions-réponses synthétiques, utilisées pour le pré-entraînement des modèles d'IA, en particulier Nemotron. La technique vise à améliorer les performances des modèles grâce à des données d'entraînement artificielles.

synthetic data AI models pretraining Q&A generation

RESEARCHarXiv CS.CL·il y a 4j

Epidemiology of Model Collapse: Modeling Synthetic Data Contamination via Bilayer SIR Dynamics

L'article propose un cadre SIR/SIRS bicouche pour modéliser la contamination des données synthétiques et l'effondrement des modèles dans l'écosystème de l'IA. Ce modèle phénoménologique de champ moyen traite les corpus de données et les modèles d'IA comme des populations interagissantes, dérivant un nombre de reproduction de base pour analyser la contamination croisée.

synthetic data AI models data contamination model collapse

ARTICLEDEV.to AI·09/04/2026

The model looked great on validation until one real invoice broke four assumptions

O artigo relata a experiência de ajuste fino de um modelo Gemma para analisar faturas indianas. Apesar das métricas de treinamento sintéticas serem excelentes, um único documento real revelou falhas cruciais e o problema do "domain gap", destacando a importância de dados reais.

synthetic data machine learning AI

RESEARCHarXiv CS.CL·14/04/2026

Generating High Quality Synthetic Data for Dutch Medical Conversations

Cet article présente un pipeline pour générer des dialogues médicaux synthétiques en néerlandais, utilisant un grand modèle linguistique (LLM) affiné pour pallier la rareté des données cliniques due aux contraintes de confidentialité. Les évaluations ont montré une forte variété lexicale mais un flux de conversation scénarisé et des problèmes de spécificité du domaine lors de l'examen qualitatif.

synthetic data Clinical Communication Dutch Language Medical NLP

RESEARCHarXiv CS.LG·16/04/2026

Synthetic Tabular Generators Fail to Preserve Behavioral Fraud Patterns: A Benchmark on Temporal, Velocity, and Multi-Account Signals

Cette recherche introduit la « fidélité comportementale » comme une nouvelle dimension d'évaluation pour les données tabulaires synthétiques, mesurant la préservation des schémas comportementaux temporels et structurels cruciaux pour la détection de fraude. Elle démontre que les générateurs indépendants des lignes, le paradigme dominant, sont structurellement incapables de reproduire les motifs de graphe multi-comptes.

synthetic data fraud detection behavioral patterns

RESEARCHarXiv CS.AI·il y a 12j

On the Origin of Synthetic Information by Means of Steganographic Inheritance

Cet article de recherche postule l'origine de l'information synthétique comme un mystère central en science de l'information, en faisant une analogie avec l'origine des espèces. Il propose un mécanisme d'héritage stéganographique pour aider à tracer la lignée évolutive de l'information synthétique générée par l'IA, reconnaissant les implications morales et les défis techniques.

information theory synthetic data steganography AI ethics

RESEARCHarXiv CS.AI·20/04/2026

LACE: Lattice Attention for Cross-thread Exploration

LACE est un nouveau cadre qui permet aux Grands Modèles de Langage (LLMs) de coordonner et de partager des informations entre plusieurs chemins de raisonnement parallèles grâce à l'attention inter-threads. Il utilise un pipeline de données synthétiques pour enseigner la correction d'erreurs collaborative, améliorant la précision du raisonnement de plus de 7 points.

synthetic data LLMs attention mechanisms AI Reasoning

RESEARCHarXiv CS.CL·13/04/2026

SynDocDis: A Metadata-Driven Framework for Generating Synthetic Physician Discussions Using Large Language Models

SynDocDis est un nouveau cadre qui utilise des grands modèles linguistiques et des métadonnées de cas dépersonnalisées pour générer des dialogues synthétiques cliniquement précis entre médecins. Cette approche vise à combler le manque de données de discussion réelles dues aux préoccupations de confidentialité, enrichissant ainsi les agents d'IA de connaissances cliniques précieuses.

synthetic data Medical Dialogue Generation privacy healthcare AI

ARTICLEDEV.to AI·il y a 6j

hat Makes a Good SFT Sample (And Why Most Synthetic Datasets Get It Wrong)

De nombreux modèles linguistiques affinés obtiennent des performances moindres en raison de la mauvaise qualité des données synthétiques. Le problème ne vient pas de la configuration de l'entraînement, mais du manque de mécanismes pour filtrer les erreurs lors de la génération de données synthétiques.

synthetic data LLMs model training Fine-tuning

DOCDEV.to AI·27/04/2026

BlenderProc

BlenderProc est un moteur de rendu procédural basé sur Blender, utilisé pour générer des ensembles de données synthétiques pour la recherche en vision par ordinateur. Il facilite la création de données diverses et réalistes pour l'entraînement de modèles d'IA.

synthetic data computer vision 3d-rendering AI tools

ARTICLEHugging Face Blog·17/04/2026

Building a Fast Multilingual OCR Model with Synthetic Data

Ce contenu aborde la construction d'un modèle d'OCR (Reconnaissance Optique de Caractères) rapide et multilingue. La méthodologie proposée utilise des données synthétiques pour l'entraînement et l'optimisation du modèle.

synthetic data Multilingual AI machine learning OCR

RESEARCHarXiv CS.LG·01/05/2026

Fidelity, Diversity, and Privacy: A Multi-Dimensional LLM Evaluation for Clinical Data Augmentation

Cette recherche propose l'utilisation de LLM (DeepSeek-R1, OpenBioLLM-Llama3, Qwen 3.5) pour l'augmentation de données synthétiques en santé mentale, répondant à la pénurie et aux réglementations de confidentialité. Un cadre d'évaluation complet est introduit, évaluant la fidélité sémantique, la diversité lexicale et la confidentialité/plagiat pour atténuer les risques comme l'effondrement de mode ou la mémorisation.

synthetic data LLMs security Data Augmentation

RESEARCHarXiv CS.CL·17/04/2026

SeaAlert: Critical Information Extraction From Maritime Distress Communications with Large Language Models

SeaAlert est un cadre basé sur les LLM pour l'analyse robuste des communications de détresse maritime, qui sont difficiles en raison du bruit et des écarts de format. Pour pallier le manque de données réelles étiquetées, le projet développe un pipeline de génération de données synthétiques à l'aide d'un LLM.

synthetic data Information Extraction NLP Speech Recognition

RESEARCHarXiv CS.CL·il y a 12j

Bridging the Stability-Expressivity Gap: Synthetic Data Scaling and Preference Alignment for Low-Resource Spoken Language Models

Cette recherche aborde l'écart Stabilité-Expressivité dans les Modèles de Langage Parlé (SLM) pour les langues à faibles ressources, causé par l'utilisation intensive de données synthétiques. Bien que les données synthétiques améliorent la précision phonétique, elles dégradent l'expressivité prosodique, un phénomène appelé Érosion Synthétique. L'article introduit des cadres d'auto-alignement pour récupérer l'expressivité.

synthetic data speech synthesis spoken language models Low-resource languages

DOCHugging Face Blog·21/04/2026

How to Ground a Korean AI Agent in Real Demographics with Synthetic Personas

Le contenu décrit comment ancrer un agent IA coréen dans des données démographiques réelles. Il explore l'utilisation de personas synthétiques pour créer des réponses IA culturellement pertinentes et précises.

synthetic data localization Demographics AI agents

RESEARCHarXiv CS.AI·06/04/2026

ESL-Bench: An Event-Driven Synthetic Longitudinal Benchmark for Health Agents

ESL-Bench é um benchmark longitudinal sintético e orientado a eventos. Ele foi desenvolvido para a avaliação de agentes de saúde, provavelmente envolvendo inteligência artificial.

synthetic data Agentes de Saúde IA na Saúde Healthcare