synthetic data

20 items

RESEARCHarXiv CS.CL·hace 1d

Re-Centering Humans in LLM Personalization

Este artículo investiga la discrepancia en el rendimiento de la personalización de LLM entre datos sintéticos y humanos. Revela que los datos humanos exponen limitaciones significativas del sistema en la extracción de atributos, la relevancia de los atributos y la generación de respuestas verdaderamente personalizadas.

user data synthetic data LLM personalization AI evaluation

ARTICLEDEV.to AI·14/4/2026

Stop Generating Synthetic Datasets. Start Generating Synthetic Systems.

El artículo argumenta que la mayoría de las plataformas de datos sintéticos fallan al generar conjuntos de datos aislados en lugar de sistemas interconectados, lo que provoca fallos en los modelos de IA y problemas de control de calidad en sectores como BFSI y salud. Destaca que los productos de IA dependen de bases de datos complejas, requiriendo que los datos sintéticos reflejen el comportamiento real del usuario en múltiples tablas.

synthetic data insurance Healthtech BFSI

ARTICLE↑ trendingReddit r/MachineLearning·23/4/2026

OpenSimula — open implementation of Simula-style mechanism design for synthetic data (in AfterImage) [P]

OpenSimula es una implementación experimental en Python del diseño de mecanismos Simula, añadida a la herramienta de conjuntos de datos de código abierto AfterImage. Aborda la necesidad de diversidad controlada en las configuraciones de SFT/evaluación de LLM, generando datos sintéticos variados mediante taxonomías construidas por LLM, muestreo ponderado y bucles críticos.

synthetic data mechanism-design open-source-tool LLM evaluation

ARTICLEDEV.to AI·23/4/2026

Stop Shipping AI on Toy Datasets: How to Treat Synthetic Data as Infrastructure

El artículo sostiene que el uso de "conjuntos de datos de juguete" para las pruebas de IA rompe un contrato tácito, lo que lleva a fallos en la implementación. Propone tratar los datos sintéticos como una infraestructura robusta —estandarizada, versionada y monitoreada— en lugar de un mero código auxiliar, ejemplificado por SyntheholDB.

synthetic data MLOps Data Infrastructure

RESEARCHHugging Face Blog·hace 5d

Task-Seeded Synthetic Q&A Generation for Nemotron Pretraining

Este contenido aborda la generación de pares sintéticos de preguntas y respuestas, utilizados para el preentrenamiento de modelos de IA, específicamente Nemotron. La técnica busca mejorar el rendimiento del modelo mediante datos de entrenamiento artificiales.

synthetic data AI models pretraining Q&A generation

RESEARCHarXiv CS.CL·hace 4d

Epidemiology of Model Collapse: Modeling Synthetic Data Contamination via Bilayer SIR Dynamics

El artículo propone un marco SIR/SIRS bicapa para modelar la contaminación de datos sintéticos y el colapso de modelos en el ecosistema de IA. Este modelo fenomenológico de campo medio trata los corpus de datos y los modelos de IA como poblaciones interactuantes, derivando un número de reproducción básico para analizar la contaminación cruzada.

synthetic data AI models data contamination model collapse

ARTICLEDEV.to AI·9/4/2026

The model looked great on validation until one real invoice broke four assumptions

O artigo relata a experiência de ajuste fino de um modelo Gemma para analisar faturas indianas. Apesar das métricas de treinamento sintéticas serem excelentes, um único documento real revelou falhas cruciais e o problema do "domain gap", destacando a importância de dados reais.

synthetic data machine learning AI

RESEARCHarXiv CS.CL·14/4/2026

Generating High Quality Synthetic Data for Dutch Medical Conversations

Este artículo presenta un pipeline para generar diálogos médicos sintéticos en neerlandés utilizando un Large Language Model (LLM) ajustado para abordar la escasez de datos clínicos debido a restricciones de privacidad. Las evaluaciones revelaron una gran variedad léxica, pero un flujo de conversación guionizado y problemas de especificidad del dominio en la revisión cualitativa.

synthetic data Clinical Communication Dutch Language Medical NLP

RESEARCHarXiv CS.LG·16/4/2026

Synthetic Tabular Generators Fail to Preserve Behavioral Fraud Patterns: A Benchmark on Temporal, Velocity, and Multi-Account Signals

Esta investigación introduce la "fidelidad conductual" como una nueva dimensión de evaluación para datos tabulares sintéticos, midiendo si preservan patrones conductuales temporales y estructurales esenciales para la detección de fraude. El estudio prueba que los generadores independientes de filas, la técnica dominante, son incapaces de reproducir motivos de grafo de fraude multi-cuenta.

synthetic data fraud detection behavioral patterns

RESEARCHarXiv CS.AI·hace 12d

On the Origin of Synthetic Information by Means of Steganographic Inheritance

Este artículo de investigación postula el origen de la información sintética como un misterio central en la ciencia de la información, estableciendo una analogía con el origen de las especies. Introduce un mecanismo de herencia esteganográfica para ayudar a rastrear el linaje evolutivo de la información sintética generada por IA, reconociendo las implicaciones morales y los desafíos técnicos.

information theory synthetic data steganography AI ethics

RESEARCHarXiv CS.AI·20/4/2026

LACE: Lattice Attention for Cross-thread Exploration

LACE es un nuevo marco que permite a los Grandes Modelos de Lenguaje (LLMs) coordinar y compartir conocimientos entre múltiples rutas de razonamiento paralelas mediante atención entre hilos. Utiliza un pipeline de datos sintéticos para enseñar la corrección de errores colaborativa, mejorando la precisión del razonamiento en más de 7 puntos.

synthetic data LLMs attention mechanisms AI Reasoning

RESEARCHarXiv CS.CL·13/4/2026

SynDocDis: A Metadata-Driven Framework for Generating Synthetic Physician Discussions Using Large Language Models

SynDocDis es un marco novedoso que utiliza Grandes Modelos de Lenguaje y metadatos de casos desidentificados para generar diálogos sintéticos clínicamente precisos entre médicos. Este enfoque aborda la escasez de datos de discusión reales debido a preocupaciones de privacidad, con el fin de enriquecer los agentes de IA con conocimiento clínico valioso.

synthetic data Medical Dialogue Generation privacy healthcare AI

ARTICLEDEV.to AI·hace 6d

hat Makes a Good SFT Sample (And Why Most Synthetic Datasets Get It Wrong)

Muchos modelos de lenguaje afinados resultan en un peor rendimiento debido a datos sintéticos de baja calidad. El problema no reside en la configuración del entrenamiento, sino en la falta de mecanismos para filtrar errores durante la generación de datos sintéticos.

synthetic data LLMs model training Fine-tuning

DOCDEV.to AI·27/4/2026

BlenderProc

BlenderProc es un renderizador procedural basado en Blender, utilizado para generar conjuntos de datos sintéticos para investigación en visión por computador. Facilita la creación de datos diversos y realistas para entrenar modelos de IA.

synthetic data computer vision 3d-rendering AI tools

ARTICLEHugging Face Blog·17/4/2026

Building a Fast Multilingual OCR Model with Synthetic Data

Este contenido trata sobre la construcción de un modelo de Reconocimiento Óptico de Caracteres (OCR) rápido y multilingüe. La metodología propuesta utiliza datos sintéticos para el entrenamiento y la optimización del modelo.

synthetic data Multilingual AI machine learning OCR

RESEARCHarXiv CS.LG·1/5/2026

Fidelity, Diversity, and Privacy: A Multi-Dimensional LLM Evaluation for Clinical Data Augmentation

Esta investigación propone el uso de LLMs (DeepSeek-R1, OpenBioLLM-Llama3, Qwen 3.5) para la aumentación de datos sintéticos de salud mental, abordando la escasez y las regulaciones de privacidad. Se introduce un marco de evaluación integral que examina la fidelidad semántica, la diversidad léxica y la privacidad/plagio para mitigar riesgos como el colapso de modo o la memorización.

synthetic data LLMs security Data Augmentation

RESEARCHarXiv CS.CL·17/4/2026

SeaAlert: Critical Information Extraction From Maritime Distress Communications with Large Language Models

SeaAlert es un marco basado en LLM para el análisis robusto de comunicaciones marítimas de socorro, que son difíciles debido al ruido y las desviaciones de formato. Para abordar la escasez de datos reales etiquetados, el proyecto desarrolla una tubería de generación de datos sintéticos utilizando un LLM.

synthetic data Information Extraction NLP Speech Recognition

RESEARCHarXiv CS.CL·hace 12d

Bridging the Stability-Expressivity Gap: Synthetic Data Scaling and Preference Alignment for Low-Resource Spoken Language Models

Esta investigación aborda la Brecha de Estabilidad-Expresividad en los Modelos de Lenguaje Hablado (SLM) para idiomas de bajos recursos, causada por el uso extensivo de datos sintéticos. Aunque los datos sintéticos mejoran la precisión fonética, degradan la expresividad prosódica, un fenómeno denominado Erosión Sintética. El artículo presenta marcos de autoalineación para recuperar la expresividad.

synthetic data speech synthesis spoken language models Low-resource languages

DOCHugging Face Blog·21/4/2026

How to Ground a Korean AI Agent in Real Demographics with Synthetic Personas

El contenido describe cómo fundamentar un agente de IA coreano en datos demográficos reales. Explora el uso de personas sintéticas para crear respuestas de IA culturalmente relevantes y precisas.

synthetic data localization Demographics AI agents

RESEARCHarXiv CS.AI·6/4/2026

ESL-Bench: An Event-Driven Synthetic Longitudinal Benchmark for Health Agents

ESL-Bench é um benchmark longitudinal sintético e orientado a eventos. Ele foi desenvolvido para a avaliação de agentes de saúde, provavelmente envolvendo inteligência artificial.

synthetic data Agentes de Saúde IA na Saúde Healthcare