← heapsort-ai

synthetic data

20 items

ARTICLEDEV.to AI·14/04/2026

Stop Generating Synthetic Datasets. Start Generating Synthetic Systems.

L'article critique le fait que la plupart des plateformes de données synthétiques génèrent des ensembles de données isolés plutôt que des systèmes interconnectés, entraînant des défaillances de modèles d'IA et des problèmes d'assurance qualité dans des secteurs comme la BFSI et la santé. Il souligne que les produits d'IA reposent sur des bases de données complexes, exigeant que les données synthétiques reflètent le comportement réel des utilisateurs à travers plusieurs tables.

43
ARTICLE↑ trendingReddit r/MachineLearning·23/04/2026

OpenSimula — open implementation of Simula-style mechanism design for synthetic data (in AfterImage) [P]

OpenSimula est une implémentation Python expérimentale de la conception de mécanismes Simula, ajoutée à l'outil de jeu de données open-source AfterImage. Il vise à créer une diversité contrôlée de données synthétiques pour les configurations SFT/éval d'LLM, en utilisant des taxonomies basées sur des LLM et des boucles de critique.

43
RESEARCHarXiv CS.CL·il y a 4j

Epidemiology of Model Collapse: Modeling Synthetic Data Contamination via Bilayer SIR Dynamics

L'article propose un cadre SIR/SIRS bicouche pour modéliser la contamination des données synthétiques et l'effondrement des modèles dans l'écosystème de l'IA. Ce modèle phénoménologique de champ moyen traite les corpus de données et les modèles d'IA comme des populations interagissantes, dérivant un nombre de reproduction de base pour analyser la contamination croisée.

28
RESEARCHarXiv CS.CL·14/04/2026

Generating High Quality Synthetic Data for Dutch Medical Conversations

Cet article présente un pipeline pour générer des dialogues médicaux synthétiques en néerlandais, utilisant un grand modèle linguistique (LLM) affiné pour pallier la rareté des données cliniques due aux contraintes de confidentialité. Les évaluations ont montré une forte variété lexicale mais un flux de conversation scénarisé et des problèmes de spécificité du domaine lors de l'examen qualitatif.

28
RESEARCHarXiv CS.LG·16/04/2026

Synthetic Tabular Generators Fail to Preserve Behavioral Fraud Patterns: A Benchmark on Temporal, Velocity, and Multi-Account Signals

Cette recherche introduit la « fidélité comportementale » comme une nouvelle dimension d'évaluation pour les données tabulaires synthétiques, mesurant la préservation des schémas comportementaux temporels et structurels cruciaux pour la détection de fraude. Elle démontre que les générateurs indépendants des lignes, le paradigme dominant, sont structurellement incapables de reproduire les motifs de graphe multi-comptes.

28
RESEARCHarXiv CS.AI·il y a 12j

On the Origin of Synthetic Information by Means of Steganographic Inheritance

Cet article de recherche postule l'origine de l'information synthétique comme un mystère central en science de l'information, en faisant une analogie avec l'origine des espèces. Il propose un mécanisme d'héritage stéganographique pour aider à tracer la lignée évolutive de l'information synthétique générée par l'IA, reconnaissant les implications morales et les défis techniques.

28
RESEARCHarXiv CS.AI·20/04/2026

LACE: Lattice Attention for Cross-thread Exploration

LACE est un nouveau cadre qui permet aux Grands Modèles de Langage (LLMs) de coordonner et de partager des informations entre plusieurs chemins de raisonnement parallèles grâce à l'attention inter-threads. Il utilise un pipeline de données synthétiques pour enseigner la correction d'erreurs collaborative, améliorant la précision du raisonnement de plus de 7 points.

27
RESEARCHarXiv CS.CL·13/04/2026

SynDocDis: A Metadata-Driven Framework for Generating Synthetic Physician Discussions Using Large Language Models

SynDocDis est un nouveau cadre qui utilise des grands modèles linguistiques et des métadonnées de cas dépersonnalisées pour générer des dialogues synthétiques cliniquement précis entre médecins. Cette approche vise à combler le manque de données de discussion réelles dues aux préoccupations de confidentialité, enrichissant ainsi les agents d'IA de connaissances cliniques précieuses.

27
DOCDEV.to AI·27/04/2026

BlenderProc

BlenderProc est un moteur de rendu procédural basé sur Blender, utilisé pour générer des ensembles de données synthétiques pour la recherche en vision par ordinateur. Il facilite la création de données diverses et réalistes pour l'entraînement de modèles d'IA.

27
RESEARCHarXiv CS.LG·01/05/2026

Fidelity, Diversity, and Privacy: A Multi-Dimensional LLM Evaluation for Clinical Data Augmentation

Cette recherche propose l'utilisation de LLM (DeepSeek-R1, OpenBioLLM-Llama3, Qwen 3.5) pour l'augmentation de données synthétiques en santé mentale, répondant à la pénurie et aux réglementations de confidentialité. Un cadre d'évaluation complet est introduit, évaluant la fidélité sémantique, la diversité lexicale et la confidentialité/plagiat pour atténuer les risques comme l'effondrement de mode ou la mémorisation.

27
RESEARCHarXiv CS.CL·17/04/2026

SeaAlert: Critical Information Extraction From Maritime Distress Communications with Large Language Models

SeaAlert est un cadre basé sur les LLM pour l'analyse robuste des communications de détresse maritime, qui sont difficiles en raison du bruit et des écarts de format. Pour pallier le manque de données réelles étiquetées, le projet développe un pipeline de génération de données synthétiques à l'aide d'un LLM.

27
RESEARCHarXiv CS.CL·il y a 12j

Bridging the Stability-Expressivity Gap: Synthetic Data Scaling and Preference Alignment for Low-Resource Spoken Language Models

Cette recherche aborde l'écart Stabilité-Expressivité dans les Modèles de Langage Parlé (SLM) pour les langues à faibles ressources, causé par l'utilisation intensive de données synthétiques. Bien que les données synthétiques améliorent la précision phonétique, elles dégradent l'expressivité prosodique, un phénomène appelé Érosion Synthétique. L'article introduit des cadres d'auto-alignement pour récupérer l'expressivité.

27