← heapsort-ai

TTS

14 items

ARTICLE↑ trendingReddit r/MachineLearning·15/04/2026

[P] Added 8 Indian languages to Chatterbox TTS via LoRA — 1.4% of parameters, no phoneme engineering [P]

Um projeto adicionou oito idiomas indianos (Telugu, Kannada, Bengali, Tamil, Malayalam, Marathi, Gujarati e Hindi) ao modelo Chatterbox-Multilingual TTS usando adaptadores LoRA e extensão de tokenizador. Esta abordagem treinou apenas 1,4% dos parâmetros do modelo, sem a necessidade de engenharia de fonemas complexa para cada idioma.

43
ARTICLE↑ trendingReddit r/LocalLLaMA·22/04/2026

Qwen3 TTS is seriously underrated - I got it running locally in real-time and it's one of the most expressive open TTS models I've tried

O autor revisita um projeto antigo de pipeline ASR->LLM->TTS local em tempo real e fica impressionado com o Qwen3 TTS. Após experimentação, ele conseguiu fazer o modelo Qwen3 TTS funcionar de forma confiável para streaming local, destacando sua expressividade e arquitetura adequada.

Qwen3 TTS is seriously underrated - I got it running locally in real-time and it's one of the most expressive open TTS models I've tried
43
NEWS↑ trendingReddit r/LocalLLaMA·08/04/2026

New TTS Model: VoxCPM2

O VoxCPM2 é um novo modelo de Text-to-Speech (TTS) que oferece três modos de geração de fala: design de voz, clonagem controlável e clonagem definitiva. Ele alcança resultados de ponta em benchmarks importantes de TTS, sendo uma ferramenta robusta para síntese de voz e reprodução de nuances vocais.

38
RESEARCHarXiv CS.CL·06/05/2026

The TTS-STT Flywheel: Synthetic Entity-Dense Audio Closes the Indic ASR Gap Where Commercial and Open-Source Systems Fail

Este artigo apresenta um sistema de ciclo fechado TTS-STT (Text-to-Speech e Speech-to-Text) para preencher a lacuna de desempenho em sistemas ASR para línguas índicas de nicho. A abordagem utiliza áudio sintético denso em entidades para melhorar significativamente a Taxa de Acertos de Entidades, superando sistemas comerciais e de código aberto.

27
ARTICLEDEV.to AI·10/04/2026

Free Kokoro TTS API: Open-Source Voice Synthesis with No Monthly Fee

Este conteúdo apresenta a API gratuita Kokoro TTS, uma alternativa de síntese de voz open-source que elimina a necessidade de contas, chaves de API ou taxas mensais cobradas por outros serviços. Ele fornece exemplos práticos em `curl` e Python para utilização, destacando a facilidade e rapidez na geração de áudio de alta qualidade.

23
NEWSQwen Blog·27/06/2025

Time to Speak Some Dialects, Qwen-TTS!

A nova atualização do Qwen-TTS, treinada em milhões de horas de fala, oferece naturalidade e expressividade de nível humano, ajustando automaticamente prosódia e emoções. Agora, ele suporta a geração de 3 dialetos chineses (pequinês, xangainês, sichuanês) e 7 vozes bilíngues chinês-inglês através da Qwen API.

21