← heapsort-ai

ASR

11 items

NEWS↑ trendingReddit r/LocalLLaMA·12/4/2026

mtmd: qwen3 audio support (qwen3-omni and qwen3-asr)

El modelo Qwen3 ahora es compatible con la entrada de audio a través de sus versiones `qwen3-omni-moe` (multimodal con entrada de visión y audio) y `qwen3-asr` (reconocimiento automático de voz). Los modelos GGUF para Qwen3-Omni (variantes de 30B) y Qwen3-ASR (1.7B y 0.6B) están disponibles en Hugging Face para uso de la comunidad.

mtmd: qwen3 audio support (qwen3-omni and qwen3-asr)
42
ARTICLE↑ trendingReddit r/MachineLearning·10/4/2026

Building a chatbot with ASR [P]

Um desenvolvedor busca a melhor abordagem ASR para integrar speech-to-text em um chatbot, enfrentando restrições orçamentárias e de segurança que o levam a preferir modelos auto-hospedados como Whisper em vez de APIs externas. Ele solicita insights sobre os trade-offs entre modelos locais e APIs, performance e facilidade de implantação para um lançamento de MVP.

35
ARTICLEDEV.to AI·19/4/2026

The Unit Economics of Speech-to-Text Just Collapsed

La economía unitaria del servicio de voz a texto ha colapsado, ya que los precios de ASR en la nube siguen siendo altos en comparación con el coste marginal casi nulo de ejecutar modelos eficientes localmente en CPUs. Avances recientes, como whisper.cpp, han hecho posible la inferencia de IA potente sin costosas GPUs en la nube, desafiando los modelos de servicio actuales.

27
RESEARCHarXiv CS.CL·6/5/2026

The TTS-STT Flywheel: Synthetic Entity-Dense Audio Closes the Indic ASR Gap Where Commercial and Open-Source Systems Fail

Este artículo presenta un sistema TTS-STT autónomo para cerrar la brecha en el ASR de idiomas índicos de nicho donde fallan los sistemas comerciales y de código abierto. Sintetiza audio denso en entidades para mejorar significativamente la Tasa de Aciertos de Entidades en conjuntos de datos desafiantes para idiomas como el telugu.

27
RESEARCHarXiv CS.CL·16/4/2026

A Proactive EMR Assistant for Doctor-Patient Dialogue: Streaming ASR, Belief Stabilization, and Preliminary Controlled Evaluation

Este artículo presenta un asistente proactivo de EMR para el diálogo médico-paciente, que supera los sistemas pasivos al integrar ASR en streaming, estabilización de creencias y planificación de acciones. El sistema fue evaluado en un entorno controlado preliminar, logrando un F1 de 0.84 y Recall@5 de 0.87.

27
RESEARCHarXiv CS.CL·hace 21d

Benchmarking Commercial ASR Systems on Code-Switching Speech: Arabic, Persian, and German

Esta investigación introduce un nuevo benchmark para evaluar sistemas comerciales de Reconocimiento Automático de Voz (ASR) en habla con cambio de código. Evalúa a cinco proveedores de ASR en cuatro pares de idiomas, incluyendo árabe-inglés, persa-inglés y alemán-inglés, utilizando un sofisticado pipeline de selección de datos en dos etapas.

27