TTS

14 items

ARTICLE↑ trendingReddit r/MachineLearning·4/15/2026

[P] Added 8 Indian languages to Chatterbox TTS via LoRA — 1.4% of parameters, no phoneme engineering [P]

Ein Projekt hat erfolgreich acht indische Sprachen (Telugu, Kannada, Bengali, Tamil, Malayalam, Marathi, Gujarati und Hindi) zum Chatterbox-Multilingual-TTS-Modell hinzugefügt, indem es LoRA-Adapter und Tokenizer-Erweiterung nutzte. Dieser Ansatz trainierte nur 1,4 % der Modellparameter und vermied so das komplexe Phonem-Engineering, das normalerweise für jede Sprache erforderlich ist.

Multilingual AI Chatterbox TTS LoRA

ARTICLE↑ trendingReddit r/LocalLLaMA·4/22/2026

Qwen3 TTS is seriously underrated - I got it running locally in real-time and it's one of the most expressive open TTS models I've tried

Der Autor hat ein altes Echtzeit-ASR->LLM->TTS-Pipeline-Projekt erneut aufgegriffen und war angenehm überrascht von Qwen3 TTS. Nach viel Experimentieren gelang es ihm, das Qwen3 TTS-Modell zuverlässig für lokales Streaming zum Laufen zu bringen, wobei er dessen Ausdruckskraft und geeignete Architektur lobte.

Open Source Qwen3 TTS real-time local inference

Qwen3 TTS is seriously underrated - I got it running locally in real-time and it's one of the most expressive open TTS models I've tried

NEWS↑ trendingReddit r/LocalLLaMA·4/8/2026

New TTS Model: VoxCPM2

O VoxCPM2 é um novo modelo de Text-to-Speech (TTS) que oferece três modos de geração de fala: design de voz, clonagem controlável e clonagem definitiva. Ele alcança resultados de ponta em benchmarks importantes de TTS, sendo uma ferramenta robusta para síntese de voz e reprodução de nuances vocais.

Voice Cloning machine learning Speech Generation TTS

ARTICLE↑ trendingReddit r/LocalLLaMA·4/10/2026

making my own ai waifu app that can teach me any language.

Um desenvolvedor criou um aplicativo de IA 'waifu' para ensino de idiomas, utilizando Gemma-4, Omnivoice TTS e modelagem 3D. O app, com recursos como chamadas de voz/vídeo, impressionou o criador pela capacidade de Gemma-4 de seguir prompts sem censura.

App Development 3D modeling TTS AI

ARTICLEDEV.to AI·4/15/2026

Choosing the Right Voice: A Technical Comparison of Pocket Studio Models

Der Artikel vergleicht drei verschiedene Text-to-Speech (TTS)-Engines in Pocket Studio (Pocket TTS, XTTS-v2 und Qwen3-TTS), die lokal auf einer CPU laufen. Er beschreibt ihre Kompromisse bei Geschwindigkeit, Mehrsprachigkeit und Sprachqualität, um Benutzern bei der Auswahl des passenden Modells für ihre Projektanforderungen zu helfen.

model comparison TTS Local AI CPU Inference

RESEARCHarXiv CS.CL·5/6/2026

The TTS-STT Flywheel: Synthetic Entity-Dense Audio Closes the Indic ASR Gap Where Commercial and Open-Source Systems Fail

Dieses Papier stellt ein eigenständiges TTS-STT-Flywheel vor, um die Lücke bei Nischen-Indischen ASR zu schließen, wo kommerzielle und Open-Source-Systeme versagen. Es synthetisiert entitätsdichte Audiodaten, um die Entity-Hit-Rate auf anspruchsvollen Datensätzen für Sprachen wie Telugu signifikant zu verbessern.

Indic languages machine learning TTS ASR

ARTICLEDEV.to AI·4/15/2026

How to prompt Gemini 3.1's new text to speech model

Gemini 3.1 Flash TTS ist ein neues Text-to-Speech-Modell, das Benutzern ermöglicht, durch Prompts eine präzise Audioleistung zu erzielen. Dieser Artikel bietet Tipps zur Steuerung des Modells, indem Kontext wie Audioprofile, Szenenbeschreibungen und Tags zur Kontrolle der Ausgabe genutzt werden.

AI models Prompting Gemini 3.1 Flash TTS TTS

DOCDEV.to AI·5/3/2026

🐱 Kitten TTS — A Lightweight Text-to-Speech Model with Live GUI

Kitten TTS ist ein leichtes Text-zu-Sprache-Modell. Es verfügt über eine Live-Grafikbenutzeroberfläche.

AI models speech synthesis TTS GUI

DOCDEV.to AI·5/2/2026

Gemini 3.1: Native TTS for Easier, More Powerful Summary Reading

Google hat Gemini 3.1 Flash TTS veröffentlicht, ein natives Text-to-Speech-Modell, das die Audioausgabe vereinfacht. Dieser Artikel beschreibt, wie die TTS-Funktion eines LINE-Bots auf diese neue Version aktualisiert wird, um die Komplexitäten und Einschränkungen früherer Implementierungen zu überwinden.

Gemini API TTS AI development

ARTICLEDEV.to AI·4/11/2026

I Built an Easy-to-Use Local TTS with Google Colab Support

Hier wird ein einfach zu bedienendes, lokales Text-to-Speech (TTS)-Tool mit Google Colab-Unterstützung vorgestellt. Das Projekt zielt darauf ab, die Entwicklung von KI-Anwendungen, Automatisierung und Barrierefreiheitsfunktionen zu vereinfachen, wodurch die Notwendigkeit komplexer Setups oder leistungsstarker Hardware entfällt.

Google Colab IA TTS Desenvolvimento

DOCDEV.to AI·4/18/2026

Build a Voice OTP System: Phone-Based Two-Factor Authentication in 10 Minutes

Dieser Inhalt stellt ein Tutorial zum Aufbau eines Voice-OTP-Systems vor, das eine sicherere Alternative zur SMS-basierten Zwei-Faktor-Authentifizierung bietet. Es zeigt, wie eine KI-Stimme den Einmalcode per Telefonanruf vorlesen kann, wodurch SMS-Schwachstellen wie SIM-Swapping und SS7-Angriffe umgangen werden.

OTP two-factor authentication security AI voice

ARTICLEDEV.to AI·4/10/2026

Free Kokoro TTS API: Open-Source Voice Synthesis with No Monthly Fee

Este conteúdo apresenta a API gratuita Kokoro TTS, uma alternativa de síntese de voz open-source que elimina a necessidade de contas, chaves de API ou taxas mensais cobradas por outros serviços. Ele fornece exemplos práticos em `curl` e Python para utilização, destacando a facilidade e rapidez na geração de áudio de alta qualidade.

Open Source Kokoro API TTS

NEWSGoogle DeepMind Blog·4/15/2026

Gemini 3.1 Flash TTS: the next generation of expressive AI speech

Die Gemini 3.1 Flash TTS führt ein neues Audiomodell mit granularen Audio-Tags ein. Dies ermöglicht eine präzise Steuerung der KI-Sprache, was zu einer ausdrucksvolleren Audioerzeugung führt.

expressive AI Gemini TTS AI speech

Gemini 3.1 Flash TTS: the next generation of expressive AI speech

NEWSQwen Blog·6/27/2025

Time to Speak Some Dialects, Qwen-TTS!

A nova atualização do Qwen-TTS, treinada em milhões de horas de fala, oferece naturalidade e expressividade de nível humano, ajustando automaticamente prosódia e emoções. Agora, ele suporta a geração de 3 dialetos chineses (pequinês, xangainês, sichuanês) e 7 vozes bilíngues chinês-inglês através da Qwen API.

Qwen-TTS Dialetos Chineses IA API