← heapsort-ai

ASR

11 items

RESEARCHHugging Face Blog·il y a 11h

Can Voice Agents Handle Bilingual Customers? Benchmarking Frontier ASR on Code-Switched Speech

Ce contenu évalue la capacité des agents vocaux et des systèmes de reconnaissance vocale automatique (ASR) de pointe à gérer les clients bilingues utilisant un discours alternant les codes. Il présente une analyse comparative des performances de ces technologies dans des environnements linguistiques complexes.

57
NEWS↑ trendingReddit r/LocalLLaMA·12/04/2026

mtmd: qwen3 audio support (qwen3-omni and qwen3-asr)

Le modèle Qwen3 prend désormais en charge l'entrée audio via ses versions `qwen3-omni-moe` (multimodale avec entrée vision et audio) et `qwen3-asr` (reconnaissance automatique de la parole). Des modèles GGUF pour Qwen3-Omni (variantes 30B) et Qwen3-ASR (1.7B et 0.6B) sont disponibles sur Hugging Face pour la communauté.

mtmd: qwen3 audio support (qwen3-omni and qwen3-asr)
42
ARTICLE↑ trendingReddit r/MachineLearning·10/04/2026

Building a chatbot with ASR [P]

Um desenvolvedor busca a melhor abordagem ASR para integrar speech-to-text em um chatbot, enfrentando restrições orçamentárias e de segurança que o levam a preferir modelos auto-hospedados como Whisper em vez de APIs externas. Ele solicita insights sobre os trade-offs entre modelos locais e APIs, performance e facilidade de implantação para um lançamento de MVP.

35
ARTICLEDEV.to AI·19/04/2026

The Unit Economics of Speech-to-Text Just Collapsed

L'économie unitaire des services de reconnaissance vocale s'est effondrée, car les prix de l'ASR en nuage restent élevés par rapport au coût marginal quasi nul de l'exécution locale de modèles efficaces sur des CPU. Des avancées récentes, comme whisper.cpp, ont rendu l'inférence d'IA puissante réalisable sans GPU cloud coûteux, remettant en question les modèles de service existants.

27
RESEARCHarXiv CS.CL·06/05/2026

The TTS-STT Flywheel: Synthetic Entity-Dense Audio Closes the Indic ASR Gap Where Commercial and Open-Source Systems Fail

Cet article introduit un système TTS-STT autonome pour combler les lacunes des systèmes ASR commerciaux et open-source pour les langues indiennes de domaine spécifique. Il synthétise des données audio riches en entités afin d'améliorer considérablement le taux de réussite des entités sur des ensembles de données difficiles pour des langues comme le télougou.

27
RESEARCHarXiv CS.CL·16/04/2026

A Proactive EMR Assistant for Doctor-Patient Dialogue: Streaming ASR, Belief Stabilization, and Preliminary Controlled Evaluation

Cet article présente un assistant EMR proactif pour le dialogue médecin-patient, qui surmonte les systèmes passifs en intégrant l'ASR en streaming, la stabilisation des croyances et la planification d'actions. Le système a été évalué dans un cadre contrôlé préliminaire, atteignant un F1 de 0.84 et un Recall@5 de 0.87.

27
RESEARCHarXiv CS.CL·il y a 21j

Benchmarking Commercial ASR Systems on Code-Switching Speech: Arabic, Persian, and German

Cette recherche présente un nouveau benchmark pour évaluer les systèmes commerciaux de reconnaissance automatique de la parole (ASR) sur le discours à alternance codique. Il évalue cinq fournisseurs d'ASR sur quatre paires de langues, y compris arabe-anglais, persan-anglais et allemand-anglais, en utilisant un pipeline de sélection de données sophistiqué en deux étapes.

27