← heapsort-ai

Whisper

11 items

ARTICLE↑ trendingReddit r/MachineLearning·10/04/2026

Building a chatbot with ASR [P]

Um desenvolvedor busca a melhor abordagem ASR para integrar speech-to-text em um chatbot, enfrentando restrições orçamentárias e de segurança que o levam a preferir modelos auto-hospedados como Whisper em vez de APIs externas. Ele solicita insights sobre os trade-offs entre modelos locais e APIs, performance e facilidade de implantação para um lançamento de MVP.

35
ARTICLEDEV.to AI·13/04/2026

Building a Voice-Controlled Local AI Agent with Whisper, LLaMA 3 and Streamlit

O EchoMemo é um agente de IA local controlado por voz que opera totalmente offline, utilizando modelos como Whisper e Ollama para converter fala em texto e compreender a intenção do usuário. Este projeto demonstra uma solução para privacidade, custo, dependência e latência, oferecendo uma interface web limpa sem a necessidade de APIs ou internet após a configuração inicial.

31
ARTICLEDEV.to AI·15/04/2026

voice- Agent model

Este artigo descreve a construção de um Agente de IA Controlado por Voz moderno e responsivo, capaz de entender contexto e realizar tarefas técnicas complexas. Ele detalha a arquitetura, que inclui o uso do Groq LPU Inference Engine e do Whisper Large V3 para transcrição de fala para texto ultrarrápida.

27
ARTICLEDEV.to AI·10/04/2026

Building VoxAgent: A Local Voice-Controlled AI Agent with Whisper, Ollama, and Safe File Actions

O texto introduz o VoxAgent, um agente de IA local e controlado por voz, projetado para ir além das demos tradicionais de IA ao executar ações seguras e visíveis em uma máquina real. Ele suporta entrada de microfone, processamento local de fala, entendimento de intenção e tarefas como criação de arquivos e geração de código.

26
ARTICLEDEV.to AI·15/04/2026

Voice-Controlled AI Agent Using Whisper and Local LLM

Este conteúdo descreve um agente de IA controlado por voz construído usando Whisper e um LLM local (Llama3 via Ollama). O sistema processa entradas de áudio e texto, detecta a intenção do usuário e executa ações como criação de arquivos, geração de código e sumarização, tudo projetado para funcionar localmente sem APIs pagas.

24