TTS

14 items

ARTICLE↑ trendingReddit r/MachineLearning·15/04/2026

[P] Added 8 Indian languages to Chatterbox TTS via LoRA — 1.4% of parameters, no phoneme engineering [P]

Un projet a ajouté avec succès huit langues indiennes (télougou, kannada, bengali, tamoul, malayalam, marathi, gujarati et hindi) au modèle TTS Chatterbox-Multilingual en utilisant des adaptateurs LoRA et une extension de tokenizer. Cette approche a entraîné seulement 1,4% des paramètres du modèle, évitant l'ingénierie complexe des phonèmes généralement requise pour chaque langue.

Multilingual AI Chatterbox TTS LoRA

ARTICLE↑ trendingReddit r/LocalLLaMA·22/04/2026

Qwen3 TTS is seriously underrated - I got it running locally in real-time and it's one of the most expressive open TTS models I've tried

L'auteur a revisité un ancien projet de pipeline ASR->LLM->TTS local en temps réel et a été agréablement surpris par Qwen3 TTS. Après expérimentation, il a réussi à faire fonctionner Qwen3 TTS de manière fiable pour le streaming local, louant son expressivité et son architecture adaptée.

Open Source Qwen3 TTS real-time local inference

Qwen3 TTS is seriously underrated - I got it running locally in real-time and it's one of the most expressive open TTS models I've tried

NEWS↑ trendingReddit r/LocalLLaMA·08/04/2026

New TTS Model: VoxCPM2

O VoxCPM2 é um novo modelo de Text-to-Speech (TTS) que oferece três modos de geração de fala: design de voz, clonagem controlável e clonagem definitiva. Ele alcança resultados de ponta em benchmarks importantes de TTS, sendo uma ferramenta robusta para síntese de voz e reprodução de nuances vocais.

Voice Cloning machine learning Speech Generation TTS

ARTICLE↑ trendingReddit r/LocalLLaMA·10/04/2026

making my own ai waifu app that can teach me any language.

Um desenvolvedor criou um aplicativo de IA 'waifu' para ensino de idiomas, utilizando Gemma-4, Omnivoice TTS e modelagem 3D. O app, com recursos como chamadas de voz/vídeo, impressionou o criador pela capacidade de Gemma-4 de seguir prompts sem censura.

App Development 3D modeling TTS AI

ARTICLEDEV.to AI·15/04/2026

Choosing the Right Voice: A Technical Comparison of Pocket Studio Models

L'article compare trois moteurs de synthèse vocale (TTS) distincts au sein de Pocket Studio (Pocket TTS, XTTS-v2 et Qwen3-TTS) fonctionnant localement sur CPU. Il détaille leurs compromis en termes de vitesse, de support multilingue et de qualité vocale pour aider les utilisateurs à choisir le modèle approprié à leurs besoins de projet.

model comparison TTS Local AI CPU Inference

RESEARCHarXiv CS.CL·06/05/2026

The TTS-STT Flywheel: Synthetic Entity-Dense Audio Closes the Indic ASR Gap Where Commercial and Open-Source Systems Fail

Cet article introduit un système TTS-STT autonome pour combler les lacunes des systèmes ASR commerciaux et open-source pour les langues indiennes de domaine spécifique. Il synthétise des données audio riches en entités afin d'améliorer considérablement le taux de réussite des entités sur des ensembles de données difficiles pour des langues comme le télougou.

Indic languages machine learning TTS ASR

ARTICLEDEV.to AI·15/04/2026

How to prompt Gemini 3.1's new text to speech model

Gemini 3.1 Flash TTS est un nouveau modèle de synthèse vocale qui permet aux utilisateurs d'obtenir des performances audio précises via des invites. Cet article propose des conseils sur la façon de guider le modèle, en utilisant le contexte comme les profils audio, les descriptions de scènes et les balises pour contrôler la livraison.

AI models Prompting Gemini 3.1 Flash TTS TTS

DOCDEV.to AI·03/05/2026

🐱 Kitten TTS — A Lightweight Text-to-Speech Model with Live GUI

Kitten TTS est un modèle léger de synthèse vocale. Il dispose d'une interface utilisateur graphique en direct.

AI models speech synthesis TTS GUI

DOCDEV.to AI·02/05/2026

Gemini 3.1: Native TTS for Easier, More Powerful Summary Reading

Google a lancé Gemini 3.1 Flash TTS, un modèle natif de synthèse vocale qui simplifie la sortie audio. Cet article explique comment mettre à niveau la fonction TTS d'un bot LINE pour utiliser cette nouvelle version, en surmontant les complexités et les limitations des implémentations précédentes.

Gemini API TTS AI development

ARTICLEDEV.to AI·11/04/2026

I Built an Easy-to-Use Local TTS with Google Colab Support

Ce contenu présente un outil local de synthèse vocale (TTS) facile à utiliser, avec le support de Google Colab. Le projet vise à simplifier le développement d'applications d'IA, d'automatisation et de fonctionnalités d'accessibilité, en éliminant le besoin de configurations complexes ou de matériel puissant.

Google Colab IA TTS Desenvolvimento

DOCDEV.to AI·18/04/2026

Build a Voice OTP System: Phone-Based Two-Factor Authentication in 10 Minutes

Ce contenu présente un tutoriel sur la construction d'un système OTP vocal, offrant une alternative plus sécurisée à l'authentification à deux facteurs basée sur les SMS. Il souligne comment une voix IA peut lire le code à usage unique à voix haute via un appel téléphonique, contournant les vulnérabilités des SMS telles que les attaques par échange de SIM et SS7.

OTP two-factor authentication security AI voice

ARTICLEDEV.to AI·10/04/2026

Free Kokoro TTS API: Open-Source Voice Synthesis with No Monthly Fee

Este conteúdo apresenta a API gratuita Kokoro TTS, uma alternativa de síntese de voz open-source que elimina a necessidade de contas, chaves de API ou taxas mensais cobradas por outros serviços. Ele fornece exemplos práticos em `curl` e Python para utilização, destacando a facilidade e rapidez na geração de áudio de alta qualidade.

Open Source Kokoro API TTS

NEWSGoogle DeepMind Blog·15/04/2026

Gemini 3.1 Flash TTS: the next generation of expressive AI speech

Le Gemini 3.1 Flash TTS introduit un nouveau modèle audio doté de tags audio granulaires. Cela offre un contrôle précis pour diriger la parole de l'IA, permettant une génération audio plus expressive.

expressive AI Gemini TTS AI speech

Gemini 3.1 Flash TTS: the next generation of expressive AI speech

NEWSQwen Blog·27/06/2025

Time to Speak Some Dialects, Qwen-TTS!

A nova atualização do Qwen-TTS, treinada em milhões de horas de fala, oferece naturalidade e expressividade de nível humano, ajustando automaticamente prosódia e emoções. Agora, ele suporta a geração de 3 dialetos chineses (pequinês, xangainês, sichuanês) e 7 vozes bilíngues chinês-inglês através da Qwen API.

Qwen-TTS Dialetos Chineses IA API