RESEARCHarXiv CS.CL·14/4/2026
Generating High Quality Synthetic Data for Dutch Medical Conversations
Este artículo presenta un pipeline para generar diálogos médicos sintéticos en neerlandés utilizando un Large Language Model (LLM) ajustado para abordar la escasez de datos clínicos debido a restricciones de privacidad. Las evaluaciones revelaron una gran variedad léxica, pero un flujo de conversación guionizado y problemas de especificidad del dominio en la revisión cualitativa.
28