ASR

11 items

RESEARCHHugging Face Blog·hace 21h

Can Voice Agents Handle Bilingual Customers? Benchmarking Frontier ASR on Code-Switched Speech

Este contenido evalúa la capacidad de los agentes de voz y los sistemas ASR de vanguardia para manejar a clientes bilingües que utilizan habla con cambio de código. Presenta un análisis comparativo del rendimiento de estas tecnologías en entornos lingüísticos complejos.

Code-Switching Voice Agents benchmarking Bilingual Speech

NEWS↑ trendingReddit r/LocalLLaMA·12/4/2026

mtmd: qwen3 audio support (qwen3-omni and qwen3-asr)

El modelo Qwen3 ahora es compatible con la entrada de audio a través de sus versiones `qwen3-omni-moe` (multimodal con entrada de visión y audio) y `qwen3-asr` (reconocimiento automático de voz). Los modelos GGUF para Qwen3-Omni (variantes de 30B) y Qwen3-ASR (1.7B y 0.6B) están disponibles en Hugging Face para uso de la comunidad.

multimodal AI audio GGUF Qwen3

mtmd: qwen3 audio support (qwen3-omni and qwen3-asr)

ARTICLE↑ trendingReddit r/MachineLearning·10/4/2026

Building a chatbot with ASR [P]

Um desenvolvedor busca a melhor abordagem ASR para integrar speech-to-text em um chatbot, enfrentando restrições orçamentárias e de segurança que o levam a preferir modelos auto-hospedados como Whisper em vez de APIs externas. Ele solicita insights sobre os trade-offs entre modelos locais e APIs, performance e facilidade de implantação para um lançamento de MVP.

self-hosted AI Whisper Chatbot Speech-to-Text

DOCHugging Face Blog·hace 6d

How to Fine-Tune Nemotron 3.5 ASR for Your Language, Domain, or Accent

Este contenido ofrece una guía sobre cómo realizar el ajuste fino del modelo de Reconocimiento Automático de Voz (ASR) Nemotron 3.5. Su objetivo es ayudar a los usuarios a adaptar el modelo para idiomas, dominios o acentos específicos, optimizando su rendimiento.

learning Nemotron 3.5 AI ASR

ARTICLEDEV.to AI·19/4/2026

The Unit Economics of Speech-to-Text Just Collapsed

La economía unitaria del servicio de voz a texto ha colapsado, ya que los precios de ASR en la nube siguen siendo altos en comparación con el coste marginal casi nulo de ejecutar modelos eficientes localmente en CPUs. Avances recientes, como whisper.cpp, han hecho posible la inferencia de IA potente sin costosas GPUs en la nube, desafiando los modelos de servicio actuales.

Open Source AI cloud computing Speech-to-Text unit economics

RESEARCHarXiv CS.CL·6/5/2026

The TTS-STT Flywheel: Synthetic Entity-Dense Audio Closes the Indic ASR Gap Where Commercial and Open-Source Systems Fail

Este artículo presenta un sistema TTS-STT autónomo para cerrar la brecha en el ASR de idiomas índicos de nicho donde fallan los sistemas comerciales y de código abierto. Sintetiza audio denso en entidades para mejorar significativamente la Tasa de Aciertos de Entidades en conjuntos de datos desafiantes para idiomas como el telugu.

Indic languages Machine Learning TTS ASR

DOCDEV.to AI·18/4/2026

Transcription Glossary: 25+ Terms You Need to Know

Este glosario define más de 25 términos esenciales en transcripción y reconocimiento de voz, como WER y diarización. Su objetivo es desmitificar la jerga técnica de la ciencia del habla, el aprendizaje automático y la ingeniería de audio para los usuarios de herramientas de IA.

glossary audio-engineering Machine Learning ASR

RESEARCHarXiv CS.CL·16/4/2026

A Proactive EMR Assistant for Doctor-Patient Dialogue: Streaming ASR, Belief Stabilization, and Preliminary Controlled Evaluation

Este artículo presenta un asistente proactivo de EMR para el diálogo médico-paciente, que supera los sistemas pasivos al integrar ASR en streaming, estabilización de creencias y planificación de acciones. El sistema fue evaluado en un entorno controlado preliminar, logrando un F1 de 0.84 y Recall@5 de 0.87.

Natural Language Processing ASR healthcare AI medical AI

RESEARCHarXiv CS.CL·hace 21d

Benchmarking Commercial ASR Systems on Code-Switching Speech: Arabic, Persian, and German

Esta investigación introduce un nuevo benchmark para evaluar sistemas comerciales de Reconocimiento Automático de Voz (ASR) en habla con cambio de código. Evalúa a cinco proveedores de ASR en cuatro pares de idiomas, incluyendo árabe-inglés, persa-inglés y alemán-inglés, utilizando un sofisticado pipeline de selección de datos en dos etapas.

Code-Switching benchmarking ASR multilingual

CASETogether AI Blog·hace 12d

How Together AI built the world’s fastest speech-to-text stack

Together AI construyó la pila de voz a texto más rápida en Artificial Analysis. Lo lograron tratando el ASR como un problema de sistemas de ruta completa, no solo como un problema de inferencia de GPU.

AI systems Speech-to-Text Together AI ASR

RESEARCHHugging Face Blog·6/5/2026

Adding Benchmaxxer Repellant to the Open ASR Leaderboard

Este contenido anuncia la integración de Benchmaxxer Repellant en el Open ASR Leaderboard. Esta nueva adición tiene como objetivo mejorar la robustez y la equidad de las evaluaciones de sistemas de reconocimiento automático de voz.

AI models evaluation benchmarking ASR