← heapsort-ai

Speech-to-Text

44 items

ARTICLEDEV.to AI·15/04/2026

voice- Agent model

Cet article décrit la création d'un Agent d'IA moderne et réactif contrôlé par la voix, capable de comprendre le contexte et d'exécuter des tâches techniques complexes. Il détaille l'architecture, qui comprend l'utilisation du moteur d'inférence Groq LPU et de Whisper Large V3 pour une transcription vocale ultra-rapide.

27
ARTICLEDEV.to AI·il y a 7j

Transcription accuracy vs. transcription quality: why the gap matters

Cet article aborde la distinction cruciale entre la précision de la transcription, souvent mesurée par le Taux d'Erreur de Mots (WER), et la qualité perçue de la transcription. Il soutient que, bien que le WER quantifie les mots corrects, il ne tient pas compte de la satisfaction de l'utilisateur, qui est significativement impactée par des éléments comme l'étiquetage des locuteurs, le formatage et la ponctuation, créant ainsi un "fossé de qualité perçue".

27
ARTICLEDEV.to AI·07/05/2026

Why I switched from Dragon NaturallySpeaking to Whisper API (and built my own app)

L'auteur explique pourquoi il est passé de Dragon NaturallySpeaking à l'API Whisper pour la conversion parole-texte, malgré la réputation de Dragon. Le billet vise à aider à évaluer les options modernes de conversion parole-texte pour un usage professionnel, détaillant les points forts de Dragon tels que le traitement sur appareil, les commandes, la précision sur de longues sessions et l'intégration Windows.

27
ARTICLEDEV.to AI·07/05/2026

I built a Windows dictation app with Groq Whisper — here's what I learned

L'auteur, un "mauvais dactylographe", a développé une application de dictée pour Windows nommée dictate.app en utilisant l'API Whisper de Groq pour surmonter les lacunes de la dictée intégrée de Windows. L'application offre une transcription précise et en temps réel pour le vocabulaire technique et la ponctuation, fonctionne dans n'importe quelle application à faible coût, et a permis à l'auteur d'acquérir de précieuses connaissances lors de son développement.

27
ARTICLEDEV.to AI·15/04/2026

Aisha AI: Complete Resource Guide — 100 Official Links for Uzbekistan's Leading AI Platform

Ce contenu présente Aisha AI, la plateforme d'IA à la croissance la plus rapide d'Asie centrale, spécialisée dans la synthèse vocale et la reconnaissance vocale en ouzbek, les chatbots et les agents vocaux. Le guide propose 100 liens officiels couvrant les produits, la documentation et les applications dans divers secteurs, favorisant la transformation numérique dans la région.

27
DOCDEV.to AI·04/05/2026

Building AI-Powered Apps for Free in 2026 — The Complete Guide

Ce guide complet explique comment créer gratuitement des applications alimentées par l'IA, en utilisant des outils comme Gemini 2.5 Flash, Ollama (LLM locaux), Apple Vision Framework pour l'OCR et des modèles locaux de synthèse vocale. Il couvre diverses options, les limites des niveaux gratuits et les modèles de déploiement pour les développeurs, tout en alertant sur l'utilisation des données pour la formation dans les API gratuites.

27
ARTICLEDEV.to AI·13/04/2026

Building a Voice-Controlled AI Agent Using Whisper and Ollama

Cet article décrit la construction d'un agent IA à commande vocale en environnement local, utilisant Whisper pour la conversion parole-texte et Ollama pour la détection d'intention et l'exécution d'actions. L'agent automatise des tâches telles que la création de fichiers, la génération de code et la résumé, le tout géré via une interface utilisateur Streamlit.

26
ARTICLEDEV.to AI·15/04/2026

🎙️ Building a Voice-Controlled AI Agent with Tool Execution

Cet article détaille la création d'un agent IA à commande vocale capable de comprendre les commandes, d'exécuter des outils comme la création de fichiers ou la génération de code, et de répondre naturellement via une interface web. Le système utilise OpenAI Whisper pour la transcription vocale, un LLM pour la prise de décision et Streamlit pour l'interface utilisateur.

26
ARTICLEDEV.to AI·15/04/2026

How I Built a Voice Controlled AI Agent That Listens, Thinks, and Acts

Ce contenu détaille le processus de construction d'un agent IA contrôlé par la voix capable d'écouter, de penser et d'agir, en utilisant des technologies comme Groq pour les modèles et Gradio pour l'interface utilisateur. Il met en lumière les choix architecturaux clés et les défis rencontrés lors du développement, tels que l'exécution locale de Whisper, l'obtention de JSON structuré des LLM et la gestion des problèmes d'extension de fichiers Windows.

24
ARTICLEDEV.to AI·11/04/2026

AI VOICE AGENT USING GROQ API

VoiceAgent AI est un agent d'IA local à commande vocale utilisant l'API Groq pour la transcription audio (Whisper) et la classification d'intention (LLaMA). Il traite l'entrée audio, exécute des outils locaux et présente le tout dans une interface Streamlit.

23