← heapsort-ai

TTS

14 items

ARTICLE↑ trendingReddit r/MachineLearning·15/4/2026

[P] Added 8 Indian languages to Chatterbox TTS via LoRA — 1.4% of parameters, no phoneme engineering [P]

Un proyecto añadió con éxito ocho idiomas indios (telugu, canarés, bengalí, tamil, malabar, maratí, gujarati e hindi) al modelo TTS Chatterbox-Multilingual utilizando adaptadores LoRA y extensión de tokenizador. Este enfoque entrenó solo el 1,4% de los parámetros del modelo, evitando la compleja ingeniería de fonemas que suele ser necesaria para cada idioma.

43
ARTICLE↑ trendingReddit r/LocalLLaMA·22/4/2026

Qwen3 TTS is seriously underrated - I got it running locally in real-time and it's one of the most expressive open TTS models I've tried

El autor revisó un antiguo proyecto de pipeline ASR->LLM->TTS local en tiempo real y quedó gratamente sorprendido con Qwen3 TTS. Tras experimentar, logró que el modelo Qwen3 TTS funcionara de forma fiable para streaming local, elogiando su expresividad y arquitectura adecuada.

Qwen3 TTS is seriously underrated - I got it running locally in real-time and it's one of the most expressive open TTS models I've tried
43
NEWS↑ trendingReddit r/LocalLLaMA·8/4/2026

New TTS Model: VoxCPM2

O VoxCPM2 é um novo modelo de Text-to-Speech (TTS) que oferece três modos de geração de fala: design de voz, clonagem controlável e clonagem definitiva. Ele alcança resultados de ponta em benchmarks importantes de TTS, sendo uma ferramenta robusta para síntese de voz e reprodução de nuances vocais.

38
ARTICLEDEV.to AI·15/4/2026

Choosing the Right Voice: A Technical Comparison of Pocket Studio Models

El artículo compara tres motores distintos de Text-to-Speech (TTS) dentro de Pocket Studio (Pocket TTS, XTTS-v2 y Qwen3-TTS) que se ejecutan localmente en la CPU. Detalla sus ventajas y desventajas en términos de velocidad, soporte multilingüe y calidad de voz para ayudar a los usuarios a seleccionar el modelo apropiado para los requisitos de su proyecto.

28
RESEARCHarXiv CS.CL·6/5/2026

The TTS-STT Flywheel: Synthetic Entity-Dense Audio Closes the Indic ASR Gap Where Commercial and Open-Source Systems Fail

Este artículo presenta un sistema TTS-STT autónomo para cerrar la brecha en el ASR de idiomas índicos de nicho donde fallan los sistemas comerciales y de código abierto. Sintetiza audio denso en entidades para mejorar significativamente la Tasa de Aciertos de Entidades en conjuntos de datos desafiantes para idiomas como el telugu.

27
DOCDEV.to AI·18/4/2026

Build a Voice OTP System: Phone-Based Two-Factor Authentication in 10 Minutes

Este contenido presenta un tutorial sobre la construcción de un sistema OTP por Voz, ofreciendo una alternativa más segura a la autenticación de dos factores basada en SMS. Destaca cómo una voz de IA puede leer el código de un solo uso en voz alta a través de una llamada telefónica, eludiendo vulnerabilidades de SMS como los ataques de intercambio de SIM y SS7.

26
ARTICLEDEV.to AI·10/4/2026

Free Kokoro TTS API: Open-Source Voice Synthesis with No Monthly Fee

Este conteúdo apresenta a API gratuita Kokoro TTS, uma alternativa de síntese de voz open-source que elimina a necessidade de contas, chaves de API ou taxas mensais cobradas por outros serviços. Ele fornece exemplos práticos em `curl` e Python para utilização, destacando a facilidade e rapidez na geração de áudio de alta qualidade.

23
NEWSQwen Blog·27/6/2025

Time to Speak Some Dialects, Qwen-TTS!

A nova atualização do Qwen-TTS, treinada em milhões de horas de fala, oferece naturalidade e expressividade de nível humano, ajustando automaticamente prosódia e emoções. Agora, ele suporta a geração de 3 dialetos chineses (pequinês, xangainês, sichuanês) e 7 vozes bilíngues chinês-inglês através da Qwen API.

21