RESEARCH28
Generating High Quality Synthetic Data for Dutch Medical Conversations
arXiv CS.CL·14. April 2026
Dieses Papier stellt eine Pipeline zur Generierung synthetischer niederländischer medizinischer Dialoge mittels eines feinabgestimmten großen Sprachmodells vor, um dem Mangel an klinischen Daten aufgrund von Datenschutzbeschränkungen zu begegnen. Evaluationen zeigten eine starke lexikalische Vielfalt, jedoch einen skriptgesteuerten Gesprächsfluss und Probleme bei der Domänenspezifität während der qualitativen Überprüfung.
Original lesen ↗