TTS

14 items

ARTICLE↑ trendingReddit r/MachineLearning·15/4/2026

[P] Added 8 Indian languages to Chatterbox TTS via LoRA — 1.4% of parameters, no phoneme engineering [P]

Un proyecto añadió con éxito ocho idiomas indios (telugu, canarés, bengalí, tamil, malabar, maratí, gujarati e hindi) al modelo TTS Chatterbox-Multilingual utilizando adaptadores LoRA y extensión de tokenizador. Este enfoque entrenó solo el 1,4% de los parámetros del modelo, evitando la compleja ingeniería de fonemas que suele ser necesaria para cada idioma.

Multilingual AI Chatterbox TTS LoRA

ARTICLE↑ trendingReddit r/LocalLLaMA·22/4/2026

Qwen3 TTS is seriously underrated - I got it running locally in real-time and it's one of the most expressive open TTS models I've tried

El autor revisó un antiguo proyecto de pipeline ASR->LLM->TTS local en tiempo real y quedó gratamente sorprendido con Qwen3 TTS. Tras experimentar, logró que el modelo Qwen3 TTS funcionara de forma fiable para streaming local, elogiando su expresividad y arquitectura adecuada.

Open Source Qwen3 TTS real-time local inference

Qwen3 TTS is seriously underrated - I got it running locally in real-time and it's one of the most expressive open TTS models I've tried

NEWS↑ trendingReddit r/LocalLLaMA·8/4/2026

New TTS Model: VoxCPM2

O VoxCPM2 é um novo modelo de Text-to-Speech (TTS) que oferece três modos de geração de fala: design de voz, clonagem controlável e clonagem definitiva. Ele alcança resultados de ponta em benchmarks importantes de TTS, sendo uma ferramenta robusta para síntese de voz e reprodução de nuances vocais.

Voice Cloning machine learning Speech Generation TTS

ARTICLE↑ trendingReddit r/LocalLLaMA·10/4/2026

making my own ai waifu app that can teach me any language.

Um desenvolvedor criou um aplicativo de IA 'waifu' para ensino de idiomas, utilizando Gemma-4, Omnivoice TTS e modelagem 3D. O app, com recursos como chamadas de voz/vídeo, impressionou o criador pela capacidade de Gemma-4 de seguir prompts sem censura.

App Development 3D modeling TTS AI

ARTICLEDEV.to AI·15/4/2026

Choosing the Right Voice: A Technical Comparison of Pocket Studio Models

El artículo compara tres motores distintos de Text-to-Speech (TTS) dentro de Pocket Studio (Pocket TTS, XTTS-v2 y Qwen3-TTS) que se ejecutan localmente en la CPU. Detalla sus ventajas y desventajas en términos de velocidad, soporte multilingüe y calidad de voz para ayudar a los usuarios a seleccionar el modelo apropiado para los requisitos de su proyecto.

model comparison TTS Local AI CPU Inference

RESEARCHarXiv CS.CL·6/5/2026

The TTS-STT Flywheel: Synthetic Entity-Dense Audio Closes the Indic ASR Gap Where Commercial and Open-Source Systems Fail

Este artículo presenta un sistema TTS-STT autónomo para cerrar la brecha en el ASR de idiomas índicos de nicho donde fallan los sistemas comerciales y de código abierto. Sintetiza audio denso en entidades para mejorar significativamente la Tasa de Aciertos de Entidades en conjuntos de datos desafiantes para idiomas como el telugu.

Indic languages machine learning TTS ASR

ARTICLEDEV.to AI·15/4/2026

How to prompt Gemini 3.1's new text to speech model

Gemini 3.1 Flash TTS es un nuevo modelo de texto a voz que permite a los usuarios obtener un rendimiento de audio preciso mediante prompts. Este artículo ofrece consejos sobre cómo guiar el modelo, utilizando contexto como perfiles de audio, descripciones de escenas y etiquetas para controlar la entrega.

AI models Prompting Gemini 3.1 Flash TTS TTS

DOCDEV.to AI·3/5/2026

🐱 Kitten TTS — A Lightweight Text-to-Speech Model with Live GUI

Kitten TTS es un modelo ligero de texto a voz. Incluye una interfaz gráfica de usuario en vivo.

AI models speech synthesis TTS GUI

DOCDEV.to AI·2/5/2026

Gemini 3.1: Native TTS for Easier, More Powerful Summary Reading

Google ha lanzado Gemini 3.1 Flash TTS, un modelo nativo de texto a voz que simplifica la salida de audio. Este artículo detalla cómo actualizar la función TTS de un bot de LINE para usar esta nueva versión, superando las complejidades y limitaciones de implementaciones anteriores.

Gemini API TTS AI development

ARTICLEDEV.to AI·11/4/2026

I Built an Easy-to-Use Local TTS with Google Colab Support

Este contenido presenta una herramienta local de Text-to-Speech (TTS) fácil de usar, con soporte para Google Colab. El proyecto busca simplificar el desarrollo de aplicaciones de IA, automatización y funciones de accesibilidad, superando la necesidad de configuraciones complejas o hardware potente.

Google Colab IA TTS Desenvolvimento

DOCDEV.to AI·18/4/2026

Build a Voice OTP System: Phone-Based Two-Factor Authentication in 10 Minutes

Este contenido presenta un tutorial sobre la construcción de un sistema OTP por Voz, ofreciendo una alternativa más segura a la autenticación de dos factores basada en SMS. Destaca cómo una voz de IA puede leer el código de un solo uso en voz alta a través de una llamada telefónica, eludiendo vulnerabilidades de SMS como los ataques de intercambio de SIM y SS7.

OTP two-factor authentication security AI voice

ARTICLEDEV.to AI·10/4/2026

Free Kokoro TTS API: Open-Source Voice Synthesis with No Monthly Fee

Este conteúdo apresenta a API gratuita Kokoro TTS, uma alternativa de síntese de voz open-source que elimina a necessidade de contas, chaves de API ou taxas mensais cobradas por outros serviços. Ele fornece exemplos práticos em `curl` e Python para utilização, destacando a facilidade e rapidez na geração de áudio de alta qualidade.

Open Source Kokoro API TTS

NEWSGoogle DeepMind Blog·15/4/2026

Gemini 3.1 Flash TTS: the next generation of expressive AI speech

Gemini 3.1 Flash TTS presenta un nuevo modelo de audio con etiquetas de audio granulares. Esto permite un control preciso para dirigir el habla de la IA, generando audio más expresivo.

expressive AI Gemini TTS AI speech

Gemini 3.1 Flash TTS: the next generation of expressive AI speech

NEWSQwen Blog·27/6/2025

Time to Speak Some Dialects, Qwen-TTS!

A nova atualização do Qwen-TTS, treinada em milhões de horas de fala, oferece naturalidade e expressividade de nível humano, ajustando automaticamente prosódia e emoções. Agora, ele suporta a geração de 3 dialetos chineses (pequinês, xangainês, sichuanês) e 7 vozes bilíngues chinês-inglês através da Qwen API.

Qwen-TTS Dialetos Chineses IA API