TTS

14 items

ARTICLE↑ trendingReddit r/MachineLearning·15/04/2026

[P] Added 8 Indian languages to Chatterbox TTS via LoRA — 1.4% of parameters, no phoneme engineering [P]

Um projeto adicionou oito idiomas indianos (Telugu, Kannada, Bengali, Tamil, Malayalam, Marathi, Gujarati e Hindi) ao modelo Chatterbox-Multilingual TTS usando adaptadores LoRA e extensão de tokenizador. Esta abordagem treinou apenas 1,4% dos parâmetros do modelo, sem a necessidade de engenharia de fonemas complexa para cada idioma.

Multilingual AI Chatterbox TTS LoRA

ARTICLE↑ trendingReddit r/LocalLLaMA·22/04/2026

Qwen3 TTS is seriously underrated - I got it running locally in real-time and it's one of the most expressive open TTS models I've tried

O autor revisita um projeto antigo de pipeline ASR->LLM->TTS local em tempo real e fica impressionado com o Qwen3 TTS. Após experimentação, ele conseguiu fazer o modelo Qwen3 TTS funcionar de forma confiável para streaming local, destacando sua expressividade e arquitetura adequada.

Open Source Qwen3 TTS real-time local inference

Qwen3 TTS is seriously underrated - I got it running locally in real-time and it's one of the most expressive open TTS models I've tried

NEWS↑ trendingReddit r/LocalLLaMA·08/04/2026

New TTS Model: VoxCPM2

O VoxCPM2 é um novo modelo de Text-to-Speech (TTS) que oferece três modos de geração de fala: design de voz, clonagem controlável e clonagem definitiva. Ele alcança resultados de ponta em benchmarks importantes de TTS, sendo uma ferramenta robusta para síntese de voz e reprodução de nuances vocais.

Voice Cloning machine learning Speech Generation TTS

ARTICLE↑ trendingReddit r/LocalLLaMA·10/04/2026

making my own ai waifu app that can teach me any language.

Um desenvolvedor criou um aplicativo de IA 'waifu' para ensino de idiomas, utilizando Gemma-4, Omnivoice TTS e modelagem 3D. O app, com recursos como chamadas de voz/vídeo, impressionou o criador pela capacidade de Gemma-4 de seguir prompts sem censura.

App Development 3D modeling TTS AI

ARTICLEDEV.to AI·15/04/2026

Choosing the Right Voice: A Technical Comparison of Pocket Studio Models

O artigo compara três motores de Text-to-Speech (TTS) distintos dentro do Pocket Studio (Pocket TTS, XTTS-v2 e Qwen3-TTS) que rodam localmente na CPU. Ele detalha suas compensações em termos de velocidade, suporte multilíngue e qualidade de voz para ajudar os usuários a selecionar o modelo apropriado para seus requisitos de projeto.

model comparison TTS Local AI CPU Inference

RESEARCHarXiv CS.CL·06/05/2026

The TTS-STT Flywheel: Synthetic Entity-Dense Audio Closes the Indic ASR Gap Where Commercial and Open-Source Systems Fail

Este artigo apresenta um sistema de ciclo fechado TTS-STT (Text-to-Speech e Speech-to-Text) para preencher a lacuna de desempenho em sistemas ASR para línguas índicas de nicho. A abordagem utiliza áudio sintético denso em entidades para melhorar significativamente a Taxa de Acertos de Entidades, superando sistemas comerciais e de código aberto.

Indic languages machine learning TTS ASR

ARTICLEDEV.to AI·15/04/2026

How to prompt Gemini 3.1's new text to speech model

O Gemini 3.1 Flash TTS é um novo modelo de texto para fala que permite aos usuários obter desempenho de áudio preciso através de prompts. Este artigo oferece dicas sobre como guiar o modelo, utilizando contexto como perfis de áudio, descrições de cena e tags para controlar a entrega.

AI models Prompting Gemini 3.1 Flash TTS TTS

DOCDEV.to AI·03/05/2026

🐱 Kitten TTS — A Lightweight Text-to-Speech Model with Live GUI

Kitten TTS é um modelo leve de conversão de texto em fala. Ele possui uma interface gráfica de usuário ao vivo.

AI models speech synthesis TTS GUI

DOCDEV.to AI·02/05/2026

Gemini 3.1: Native TTS for Easier, More Powerful Summary Reading

O Google lançou o Gemini 3.1 Flash TTS, um modelo nativo de conversão de texto em fala que simplifica a saída de áudio. Este artigo detalha como atualizar a função TTS de um LINE Bot para usar esta nova versão, superando as complexidades e limitações de implementações anteriores.

Gemini API TTS AI development

ARTICLEDEV.to AI·11/04/2026

I Built an Easy-to-Use Local TTS with Google Colab Support

Este conteúdo apresenta uma ferramenta local de Text-to-Speech (TTS) de fácil utilização, com suporte para Google Colab. O projeto visa simplificar o desenvolvimento de aplicações de IA, automação e recursos de acessibilidade, superando a necessidade de configurações complexas ou hardware potente.

Google Colab IA TTS Desenvolvimento

DOCDEV.to AI·18/04/2026

Build a Voice OTP System: Phone-Based Two-Factor Authentication in 10 Minutes

Este conteúdo apresenta um tutorial sobre a construção de um sistema OTP por Voz, oferecendo uma alternativa mais segura à autenticação de dois fatores baseada em SMS. Ele destaca como uma voz de IA pode ler o código de uso único em voz alta via chamada telefônica, contornando vulnerabilidades de SMS como ataques de troca de SIM e SS7.

OTP two-factor authentication security AI voice

ARTICLEDEV.to AI·10/04/2026

Free Kokoro TTS API: Open-Source Voice Synthesis with No Monthly Fee

Este conteúdo apresenta a API gratuita Kokoro TTS, uma alternativa de síntese de voz open-source que elimina a necessidade de contas, chaves de API ou taxas mensais cobradas por outros serviços. Ele fornece exemplos práticos em `curl` e Python para utilização, destacando a facilidade e rapidez na geração de áudio de alta qualidade.

Open Source Kokoro API TTS

NEWSGoogle DeepMind Blog·15/04/2026

Gemini 3.1 Flash TTS: the next generation of expressive AI speech

O Gemini 3.1 Flash TTS apresenta um novo modelo de áudio com tags granulares. Isso oferece controle preciso para direcionar a fala da IA, resultando em uma geração de áudio mais expressiva.

expressive AI Gemini TTS AI speech

Gemini 3.1 Flash TTS: the next generation of expressive AI speech

NEWSQwen Blog·27/06/2025

Time to Speak Some Dialects, Qwen-TTS!

A nova atualização do Qwen-TTS, treinada em milhões de horas de fala, oferece naturalidade e expressividade de nível humano, ajustando automaticamente prosódia e emoções. Agora, ele suporta a geração de 3 dialetos chineses (pequinês, xangainês, sichuanês) e 7 vozes bilíngues chinês-inglês através da Qwen API.

Qwen-TTS Dialetos Chineses IA API