← heapsort-ai

Whisper

11 items

ARTICLE↑ trendingReddit r/MachineLearning·10/4/2026

Building a chatbot with ASR [P]

Um desenvolvedor busca a melhor abordagem ASR para integrar speech-to-text em um chatbot, enfrentando restrições orçamentárias e de segurança que o levam a preferir modelos auto-hospedados como Whisper em vez de APIs externas. Ele solicita insights sobre os trade-offs entre modelos locais e APIs, performance e facilidade de implantação para um lançamento de MVP.

35
ARTICLEDEV.to AI·13/4/2026

Building a Voice-Controlled Local AI Agent with Whisper, LLaMA 3 and Streamlit

EchoMemo es un agente de IA local controlado por voz que funciona completamente sin conexión, utilizando modelos como Whisper y Ollama para convertir voz a texto y comprender la intención del usuario. Este proyecto demuestra una solución para la privacidad, el costo, la dependencia y la latencia, ofreciendo una interfaz web limpia sin necesidad de APIs o internet después de la configuración inicial.

31
ARTICLEDEV.to AI·15/4/2026

voice- Agent model

Este artículo describe la creación de un Agente de IA Controlado por Voz moderno y receptivo, capaz de comprender el contexto y realizar tareas técnicas complejas. Detalla la arquitectura, que incluye el uso del motor de inferencia Groq LPU y Whisper Large V3 para una transcripción de voz a texto ultrarrápida.

27
ARTICLEDEV.to AI·13/4/2026

Building a Voice-Controlled AI Agent Using Whisper and Ollama

Este artículo describe la construcción de un agente de IA controlado por voz en un entorno local, utilizando Whisper para la conversión de voz a texto y Ollama para la detección de intenciones y la ejecución de acciones. El agente automatiza tareas como la creación de archivos, la generación de código y el resumen, todo gestionado a través de una interfaz de usuario de Streamlit.

26
ARTICLEDEV.to AI·15/4/2026

Voice-Controlled AI Agent Using Whisper and Local LLM

Este contenido describe un agente de IA controlado por voz construido con Whisper y un LLM local (Llama3 a través de Ollama). El sistema procesa entradas de audio y texto, detecta la intención del usuario y realiza acciones como la creación de archivos, la generación de código y el resumen, todo diseñado para funcionar localmente sin APIs de pago.

24