RESEARCH28

Generating High Quality Synthetic Data for Dutch Medical Conversations

arXiv CS.CL·14 avril 2026

Cet article présente un pipeline pour générer des dialogues médicaux synthétiques en néerlandais, utilisant un grand modèle linguistique (LLM) affiné pour pallier la rareté des données cliniques due aux contraintes de confidentialité. Les évaluations ont montré une forte variété lexicale mais un flux de conversation scénarisé et des problèmes de spécificité du domaine lors de l'examen qualitatif.

synthetic data Clinical Communication Dutch Language Medical NLP large language models

Lire l'original ↗