← heapsort-ai

TTS

14 items

ARTICLE↑ trendingReddit r/MachineLearning·4/15/2026

[P] Added 8 Indian languages to Chatterbox TTS via LoRA — 1.4% of parameters, no phoneme engineering [P]

Ein Projekt hat erfolgreich acht indische Sprachen (Telugu, Kannada, Bengali, Tamil, Malayalam, Marathi, Gujarati und Hindi) zum Chatterbox-Multilingual-TTS-Modell hinzugefügt, indem es LoRA-Adapter und Tokenizer-Erweiterung nutzte. Dieser Ansatz trainierte nur 1,4 % der Modellparameter und vermied so das komplexe Phonem-Engineering, das normalerweise für jede Sprache erforderlich ist.

43
ARTICLE↑ trendingReddit r/LocalLLaMA·4/22/2026

Qwen3 TTS is seriously underrated - I got it running locally in real-time and it's one of the most expressive open TTS models I've tried

Der Autor hat ein altes Echtzeit-ASR->LLM->TTS-Pipeline-Projekt erneut aufgegriffen und war angenehm überrascht von Qwen3 TTS. Nach viel Experimentieren gelang es ihm, das Qwen3 TTS-Modell zuverlässig für lokales Streaming zum Laufen zu bringen, wobei er dessen Ausdruckskraft und geeignete Architektur lobte.

Qwen3 TTS is seriously underrated - I got it running locally in real-time and it's one of the most expressive open TTS models I've tried
43
NEWS↑ trendingReddit r/LocalLLaMA·4/8/2026

New TTS Model: VoxCPM2

O VoxCPM2 é um novo modelo de Text-to-Speech (TTS) que oferece três modos de geração de fala: design de voz, clonagem controlável e clonagem definitiva. Ele alcança resultados de ponta em benchmarks importantes de TTS, sendo uma ferramenta robusta para síntese de voz e reprodução de nuances vocais.

38
RESEARCHarXiv CS.CL·5/6/2026

The TTS-STT Flywheel: Synthetic Entity-Dense Audio Closes the Indic ASR Gap Where Commercial and Open-Source Systems Fail

Dieses Papier stellt ein eigenständiges TTS-STT-Flywheel vor, um die Lücke bei Nischen-Indischen ASR zu schließen, wo kommerzielle und Open-Source-Systeme versagen. Es synthetisiert entitätsdichte Audiodaten, um die Entity-Hit-Rate auf anspruchsvollen Datensätzen für Sprachen wie Telugu signifikant zu verbessern.

27
ARTICLEDEV.to AI·4/11/2026

I Built an Easy-to-Use Local TTS with Google Colab Support

Hier wird ein einfach zu bedienendes, lokales Text-to-Speech (TTS)-Tool mit Google Colab-Unterstützung vorgestellt. Das Projekt zielt darauf ab, die Entwicklung von KI-Anwendungen, Automatisierung und Barrierefreiheitsfunktionen zu vereinfachen, wodurch die Notwendigkeit komplexer Setups oder leistungsstarker Hardware entfällt.

26
ARTICLEDEV.to AI·4/10/2026

Free Kokoro TTS API: Open-Source Voice Synthesis with No Monthly Fee

Este conteúdo apresenta a API gratuita Kokoro TTS, uma alternativa de síntese de voz open-source que elimina a necessidade de contas, chaves de API ou taxas mensais cobradas por outros serviços. Ele fornece exemplos práticos em `curl` e Python para utilização, destacando a facilidade e rapidez na geração de áudio de alta qualidade.

23
NEWSQwen Blog·6/27/2025

Time to Speak Some Dialects, Qwen-TTS!

A nova atualização do Qwen-TTS, treinada em milhões de horas de fala, oferece naturalidade e expressividade de nível humano, ajustando automaticamente prosódia e emoções. Agora, ele suporta a geração de 3 dialetos chineses (pequinês, xangainês, sichuanês) e 7 vozes bilíngues chinês-inglês através da Qwen API.

21