RESEARCH28

Generating High Quality Synthetic Data for Dutch Medical Conversations

arXiv CS.CL·14 de abril de 2026

Este artículo presenta un pipeline para generar diálogos médicos sintéticos en neerlandés utilizando un Large Language Model (LLM) ajustado para abordar la escasez de datos clínicos debido a restricciones de privacidad. Las evaluaciones revelaron una gran variedad léxica, pero un flujo de conversación guionizado y problemas de especificidad del dominio en la revisión cualitativa.

synthetic data Clinical Communication Dutch Language Medical NLP large language models

Leer original ↗