← heapsort-ai

Speech-to-Text

44 items

ARTICLEDEV.to AI·15/4/2026

voice- Agent model

Este artículo describe la creación de un Agente de IA Controlado por Voz moderno y receptivo, capaz de comprender el contexto y realizar tareas técnicas complejas. Detalla la arquitectura, que incluye el uso del motor de inferencia Groq LPU y Whisper Large V3 para una transcripción de voz a texto ultrarrápida.

27
ARTICLEDEV.to AI·hace 7d

Transcription accuracy vs. transcription quality: why the gap matters

Este artículo aborda la distinción crucial entre la precisión de la transcripción, medida comúnmente por la Tasa de Error de Palabras (WER), y la calidad de transcripción percibida. Argumenta que, si bien el WER cuantifica las palabras correctas, no considera la satisfacción del usuario, que se ve significativamente afectada por elementos como la identificación de hablantes, el formato y la puntuación, generando así una "brecha de calidad percibida".

27
ARTICLEDEV.to AI·7/5/2026

Why I switched from Dragon NaturallySpeaking to Whisper API (and built my own app)

El autor explica por qué cambió de Dragon NaturallySpeaking a Whisper API para la conversión de voz a texto, a pesar de la reputación de Dragon. La publicación tiene como objetivo ayudar a evaluar opciones modernas de voz a texto para uso profesional, detallando las fortalezas de Dragon como el procesamiento en el dispositivo, comandos, precisión en sesiones largas e integración con Windows.

27
ARTICLEDEV.to AI·7/5/2026

I built a Windows dictation app with Groq Whisper — here's what I learned

El autor, un "mal mecanógrafo", construyó una aplicación de dictado para Windows llamada dictate.app utilizando la API Whisper de Groq para superar las limitaciones del dictado incorporado en Windows. La aplicación ofrece transcripción precisa y en tiempo real para vocabulario técnico y puntuación, funciona en cualquier aplicación a bajo costo, y le brindó aprendizajes valiosos durante su desarrollo.

27
ARTICLEDEV.to AI·15/4/2026

Aisha AI: Complete Resource Guide — 100 Official Links for Uzbekistan's Leading AI Platform

Este contenido presenta Aisha AI, la plataforma de IA de más rápido crecimiento en Asia Central, especializada en síntesis de voz y voz a texto en uzbeko, chatbots y agentes de voz. La guía ofrece 100 enlaces oficiales que cubren productos, documentación y aplicaciones en diversos sectores, impulsando la transformación digital en la región.

27
DOCDEV.to AI·4/5/2026

Building AI-Powered Apps for Free in 2026 — The Complete Guide

Esta guía completa detalla cómo construir aplicaciones impulsadas por IA de forma gratuita, utilizando herramientas como Gemini 2.5 Flash, Ollama (LLMs locales), Apple Vision Framework para OCR y modelos locales de voz a texto. Cubre varias opciones, límites de la capa gratuita y patrones de implementación para desarrolladores, además de advertir sobre el uso de datos para entrenamiento en APIs de capa gratuita.

27
ARTICLEDEV.to AI·13/4/2026

Building a Voice-Controlled AI Agent Using Whisper and Ollama

Este artículo describe la construcción de un agente de IA controlado por voz en un entorno local, utilizando Whisper para la conversión de voz a texto y Ollama para la detección de intenciones y la ejecución de acciones. El agente automatiza tareas como la creación de archivos, la generación de código y el resumen, todo gestionado a través de una interfaz de usuario de Streamlit.

26
ARTICLEDEV.to AI·15/4/2026

🎙️ Building a Voice-Controlled AI Agent with Tool Execution

Este artículo describe la creación de un agente de IA controlado por voz que puede entender comandos, ejecutar herramientas como la creación de archivos o la generación de código, y responder de forma natural a través de una interfaz web. El sistema emplea OpenAI Whisper para la conversión de voz a texto, un LLM para la toma de decisiones y Streamlit para la interfaz de usuario.

26
ARTICLEDEV.to AI·15/4/2026

How I Built a Voice Controlled AI Agent That Listens, Thinks, and Acts

Este contenido detalla el proceso de construcción de un agente de IA controlado por voz que puede escuchar, pensar y actuar, utilizando tecnologías como Groq para modelos y Gradio para la interfaz de usuario. Destaca las elecciones arquitectónicas clave y los desafíos enfrentados durante el desarrollo, como la ejecución local de Whisper, la obtención de JSON estructurado de LLMs y la gestión de problemas de extensión de archivos de Windows.

24
ARTICLEDEV.to AI·11/4/2026

AI VOICE AGENT USING GROQ API

VoiceAgent AI es un agente de IA local controlado por voz que utiliza la API Groq para transcripción de audio (Whisper) y clasificación de intenciones (LLaMA). Procesa la entrada de audio, ejecuta herramientas locales y presenta todo en una interfaz Streamlit.

23