← heapsort-ai

Speech-to-Text

44 items

ARTICLEDEV.to AI·4/15/2026

voice- Agent model

Dieser Artikel beschreibt die Entwicklung eines modernen, reaktionsschnellen sprachgesteuerten KI-Agenten, der Kontext verstehen und komplexe technische Aufgaben ausführen kann. Er skizziert die Architektur, die die Nutzung der Groq LPU Inference Engine und Whisper Large V3 für extrem schnelle Sprach-zu-Text-Transkription umfasst.

27
ARTICLEDEV.to AI·vor 7T

Transcription accuracy vs. transcription quality: why the gap matters

Dieser Artikel behandelt den entscheidenden Unterschied zwischen der Transkriptionsgenauigkeit, oft gemessen an der Wortfehlerrate (WER), und der wahrgenommenen Transkriptionsqualität. Er argumentiert, dass WER zwar die korrekten Wörter quantifiziert, aber die Benutzerzufriedenheit nicht berücksichtigt, die maßgeblich von Elementen wie Sprecherkennzeichnung, Formatierung und Zeichensetzung beeinflusst wird, wodurch eine "wahrgenommene Qualitätslücke" entsteht.

27
ARTICLEDEV.to AI·5/7/2026

Why I switched from Dragon NaturallySpeaking to Whisper API (and built my own app)

Der Autor erklärt, warum er von Dragon NaturallySpeaking zur Whisper API für Spracherkennung gewechselt ist, trotz Dragons langjährigem Ruf. Der Beitrag soll Lesern helfen, moderne Spracherkennungsoptionen für die berufliche Nutzung zu bewerten, und beschreibt Dragons Stärken wie On-Device-Verarbeitung, Befehle, Langzeitgenauigkeit und Windows-Integration.

27
ARTICLEDEV.to AI·5/7/2026

I built a Windows dictation app with Groq Whisper — here's what I learned

Der Autor, ein „schlechter Tipper“, entwickelte eine Windows-Diktieranwendung namens dictate.app mit Groq's Whisper API, um die Einschränkungen der integrierten Windows-Diktierfunktion zu überwinden. Die App bietet Echtzeit- und präzise Transkription für technisches Vokabular und Zeichensetzung, funktioniert in jeder Anwendung zu geringen Kosten und lieferte während ihrer Entwicklung wertvolle Erkenntnisse.

27
DOCDEV.to AI·5/4/2026

Building AI-Powered Apps for Free in 2026 — The Complete Guide

Dieser umfassende Leitfaden beschreibt, wie man kostenlose KI-gestützte Apps entwickelt, indem man Tools wie Gemini 2.5 Flash, Ollama (lokale LLMs), Apple Vision Framework für OCR und lokale Spracherkennungsmodelle nutzt. Er behandelt verschiedene Optionen, Einschränkungen von kostenlosen Tarifen und Bereitstellungsmuster für Entwickler und warnt auch vor der Datennutzung für Trainingszwecke bei kostenlosen API-Zugängen.

27
ARTICLEDEV.to AI·4/15/2026

🎙️ Building a Voice-Controlled AI Agent with Tool Execution

Dieser Artikel beschreibt die Erstellung eines sprachgesteuerten KI-Agenten, der Befehle versteht, Tools wie Dateierstellung oder Code-Generierung ausführt und natürlich über eine Weboberfläche antwortet. Das System nutzt OpenAI Whisper für die Spracherkennung, ein LLM für die Entscheidungsfindung und Streamlit für die interaktive Benutzeroberfläche.

26
ARTICLEDEV.to AI·4/15/2026

How I Built a Voice Controlled AI Agent That Listens, Thinks, and Acts

Dieser Inhalt beschreibt den Aufbau eines sprachgesteuerten KI-Agenten, der hören, denken und handeln kann, unter Nutzung von Groq für Modelle und Gradio für die Benutzeroberfläche. Er beleuchtet wichtige architektonische Entscheidungen und Herausforderungen während der Entwicklung, wie den lokalen Betrieb von Whisper, die Gewinnung von strukturiertem JSON aus LLMs und Probleme mit Windows-Dateierweiterungen.

24
ARTICLEDEV.to AI·4/11/2026

AI VOICE AGENT USING GROQ API

VoiceAgent AI ist ein lokaler, sprachgesteuerter KI-Agent, der die Groq API für Audioskription (Whisper) und Intent-Klassifizierung (LLaMA) nutzt. Er verarbeitet Audio-Eingaben, führt lokale Tools aus und präsentiert alle Funktionen in einer Streamlit-Oberfläche.

23