← heapsort-ai

speech synthesis

7 items

RESEARCHarXiv CS.CL·vor 12T

Unlocking Fine-Grained and Within-Utterance Speaking Style Control in Prompt-Based Text-to-Speech Models

Dieses Papier schlägt neue Techniken zur feingranularen Sprechstilkontrolle in promptbasierten Text-zu-Sprache (TTS)-Modellen vor. Es behandelt die Stilinterpolation zwischen Äußerungen und Stilübergänge innerhalb einer einzigen Äußerung, wodurch Einschränkungen der globalen Stilanwendung überwunden werden.

27
RESEARCHarXiv CS.CL·vor 12T

Bridging the Stability-Expressivity Gap: Synthetic Data Scaling and Preference Alignment for Low-Resource Spoken Language Models

Diese Forschung befasst sich mit der Stabilitäts-Expressivitäts-Lücke in gesprochenen Sprachmodellen (SLMs) für ressourcenarme Sprachen, verursacht durch die intensive Nutzung synthetischer Daten. Während synthetische Daten die phonetische Genauigkeit verbessern, beeinträchtigen sie die prosodische Ausdrucksfähigkeit, ein Phänomen, das als Synthetische Erosion bezeichnet wird. Das Papier stellt Selbstausrichtungsrahmen vor, um die Ausdrucksfähigkeit wiederherzustellen.

27