← heapsort-ai

synthetic data

20 items

ARTICLEDEV.to AI·14/4/2026

Stop Generating Synthetic Datasets. Start Generating Synthetic Systems.

El artículo argumenta que la mayoría de las plataformas de datos sintéticos fallan al generar conjuntos de datos aislados en lugar de sistemas interconectados, lo que provoca fallos en los modelos de IA y problemas de control de calidad en sectores como BFSI y salud. Destaca que los productos de IA dependen de bases de datos complejas, requiriendo que los datos sintéticos reflejen el comportamiento real del usuario en múltiples tablas.

43
ARTICLE↑ trendingReddit r/MachineLearning·23/4/2026

OpenSimula — open implementation of Simula-style mechanism design for synthetic data (in AfterImage) [P]

OpenSimula es una implementación experimental en Python del diseño de mecanismos Simula, añadida a la herramienta de conjuntos de datos de código abierto AfterImage. Aborda la necesidad de diversidad controlada en las configuraciones de SFT/evaluación de LLM, generando datos sintéticos variados mediante taxonomías construidas por LLM, muestreo ponderado y bucles críticos.

43
RESEARCHarXiv CS.CL·hace 4d

Epidemiology of Model Collapse: Modeling Synthetic Data Contamination via Bilayer SIR Dynamics

El artículo propone un marco SIR/SIRS bicapa para modelar la contaminación de datos sintéticos y el colapso de modelos en el ecosistema de IA. Este modelo fenomenológico de campo medio trata los corpus de datos y los modelos de IA como poblaciones interactuantes, derivando un número de reproducción básico para analizar la contaminación cruzada.

28
RESEARCHarXiv CS.CL·14/4/2026

Generating High Quality Synthetic Data for Dutch Medical Conversations

Este artículo presenta un pipeline para generar diálogos médicos sintéticos en neerlandés utilizando un Large Language Model (LLM) ajustado para abordar la escasez de datos clínicos debido a restricciones de privacidad. Las evaluaciones revelaron una gran variedad léxica, pero un flujo de conversación guionizado y problemas de especificidad del dominio en la revisión cualitativa.

28
RESEARCHarXiv CS.LG·16/4/2026

Synthetic Tabular Generators Fail to Preserve Behavioral Fraud Patterns: A Benchmark on Temporal, Velocity, and Multi-Account Signals

Esta investigación introduce la "fidelidad conductual" como una nueva dimensión de evaluación para datos tabulares sintéticos, midiendo si preservan patrones conductuales temporales y estructurales esenciales para la detección de fraude. El estudio prueba que los generadores independientes de filas, la técnica dominante, son incapaces de reproducir motivos de grafo de fraude multi-cuenta.

28
RESEARCHarXiv CS.AI·hace 12d

On the Origin of Synthetic Information by Means of Steganographic Inheritance

Este artículo de investigación postula el origen de la información sintética como un misterio central en la ciencia de la información, estableciendo una analogía con el origen de las especies. Introduce un mecanismo de herencia esteganográfica para ayudar a rastrear el linaje evolutivo de la información sintética generada por IA, reconociendo las implicaciones morales y los desafíos técnicos.

28
RESEARCHarXiv CS.CL·13/4/2026

SynDocDis: A Metadata-Driven Framework for Generating Synthetic Physician Discussions Using Large Language Models

SynDocDis es un marco novedoso que utiliza Grandes Modelos de Lenguaje y metadatos de casos desidentificados para generar diálogos sintéticos clínicamente precisos entre médicos. Este enfoque aborda la escasez de datos de discusión reales debido a preocupaciones de privacidad, con el fin de enriquecer los agentes de IA con conocimiento clínico valioso.

27
DOCDEV.to AI·27/4/2026

BlenderProc

BlenderProc es un renderizador procedural basado en Blender, utilizado para generar conjuntos de datos sintéticos para investigación en visión por computador. Facilita la creación de datos diversos y realistas para entrenar modelos de IA.

27
RESEARCHarXiv CS.LG·1/5/2026

Fidelity, Diversity, and Privacy: A Multi-Dimensional LLM Evaluation for Clinical Data Augmentation

Esta investigación propone el uso de LLMs (DeepSeek-R1, OpenBioLLM-Llama3, Qwen 3.5) para la aumentación de datos sintéticos de salud mental, abordando la escasez y las regulaciones de privacidad. Se introduce un marco de evaluación integral que examina la fidelidad semántica, la diversidad léxica y la privacidad/plagio para mitigar riesgos como el colapso de modo o la memorización.

27
RESEARCHarXiv CS.CL·17/4/2026

SeaAlert: Critical Information Extraction From Maritime Distress Communications with Large Language Models

SeaAlert es un marco basado en LLM para el análisis robusto de comunicaciones marítimas de socorro, que son difíciles debido al ruido y las desviaciones de formato. Para abordar la escasez de datos reales etiquetados, el proyecto desarrolla una tubería de generación de datos sintéticos utilizando un LLM.

27
RESEARCHarXiv CS.CL·hace 12d

Bridging the Stability-Expressivity Gap: Synthetic Data Scaling and Preference Alignment for Low-Resource Spoken Language Models

Esta investigación aborda la Brecha de Estabilidad-Expresividad en los Modelos de Lenguaje Hablado (SLM) para idiomas de bajos recursos, causada por el uso extensivo de datos sintéticos. Aunque los datos sintéticos mejoran la precisión fonética, degradan la expresividad prosódica, un fenómeno denominado Erosión Sintética. El artículo presenta marcos de autoalineación para recuperar la expresividad.

27