ASR

11 items

RESEARCHHugging Face Blog·il y a 11h

Can Voice Agents Handle Bilingual Customers? Benchmarking Frontier ASR on Code-Switched Speech

Ce contenu évalue la capacité des agents vocaux et des systèmes de reconnaissance vocale automatique (ASR) de pointe à gérer les clients bilingues utilisant un discours alternant les codes. Il présente une analyse comparative des performances de ces technologies dans des environnements linguistiques complexes.

Code-Switching Voice Agents benchmarking Bilingual Speech

NEWS↑ trendingReddit r/LocalLLaMA·12/04/2026

mtmd: qwen3 audio support (qwen3-omni and qwen3-asr)

Le modèle Qwen3 prend désormais en charge l'entrée audio via ses versions `qwen3-omni-moe` (multimodale avec entrée vision et audio) et `qwen3-asr` (reconnaissance automatique de la parole). Des modèles GGUF pour Qwen3-Omni (variantes 30B) et Qwen3-ASR (1.7B et 0.6B) sont disponibles sur Hugging Face pour la communauté.

multimodal AI audio GGUF Qwen3

mtmd: qwen3 audio support (qwen3-omni and qwen3-asr)

ARTICLE↑ trendingReddit r/MachineLearning·10/04/2026

Building a chatbot with ASR [P]

Um desenvolvedor busca a melhor abordagem ASR para integrar speech-to-text em um chatbot, enfrentando restrições orçamentárias e de segurança que o levam a preferir modelos auto-hospedados como Whisper em vez de APIs externas. Ele solicita insights sobre os trade-offs entre modelos locais e APIs, performance e facilidade de implantação para um lançamento de MVP.

self-hosted AI Whisper Chatbot Speech-to-Text

DOCHugging Face Blog·il y a 5j

How to Fine-Tune Nemotron 3.5 ASR for Your Language, Domain, or Accent

Ce contenu propose un guide sur la manière d'affiner le modèle de reconnaissance vocale automatique (ASR) Nemotron 3.5. Il vise à aider les utilisateurs à adapter le modèle à des langues, des domaines ou des accents spécifiques, optimisant ainsi ses performances.

learning Nemotron 3.5 AI ASR

ARTICLEDEV.to AI·19/04/2026

The Unit Economics of Speech-to-Text Just Collapsed

L'économie unitaire des services de reconnaissance vocale s'est effondrée, car les prix de l'ASR en nuage restent élevés par rapport au coût marginal quasi nul de l'exécution locale de modèles efficaces sur des CPU. Des avancées récentes, comme whisper.cpp, ont rendu l'inférence d'IA puissante réalisable sans GPU cloud coûteux, remettant en question les modèles de service existants.

open-source AI cloud computing Speech-to-Text unit economics

RESEARCHarXiv CS.CL·06/05/2026

The TTS-STT Flywheel: Synthetic Entity-Dense Audio Closes the Indic ASR Gap Where Commercial and Open-Source Systems Fail

Cet article introduit un système TTS-STT autonome pour combler les lacunes des systèmes ASR commerciaux et open-source pour les langues indiennes de domaine spécifique. Il synthétise des données audio riches en entités afin d'améliorer considérablement le taux de réussite des entités sur des ensembles de données difficiles pour des langues comme le télougou.

Indic languages machine learning TTS ASR

DOCDEV.to AI·18/04/2026

Transcription Glossary: 25+ Terms You Need to Know

Ce glossaire définit plus de 25 termes essentiels en transcription et reconnaissance vocale, tels que WER et la diarisation. Il vise à démystifier le jargon technique de la science du langage, de l'apprentissage automatique et de l'ingénierie audio pour les utilisateurs d'outils d'IA.

glossary audio-engineering machine learning ASR

RESEARCHarXiv CS.CL·16/04/2026

A Proactive EMR Assistant for Doctor-Patient Dialogue: Streaming ASR, Belief Stabilization, and Preliminary Controlled Evaluation

Cet article présente un assistant EMR proactif pour le dialogue médecin-patient, qui surmonte les systèmes passifs en intégrant l'ASR en streaming, la stabilisation des croyances et la planification d'actions. Le système a été évalué dans un cadre contrôlé préliminaire, atteignant un F1 de 0.84 et un Recall@5 de 0.87.

Natural Language Processing ASR healthcare AI medical AI

RESEARCHarXiv CS.CL·il y a 21j

Benchmarking Commercial ASR Systems on Code-Switching Speech: Arabic, Persian, and German

Cette recherche présente un nouveau benchmark pour évaluer les systèmes commerciaux de reconnaissance automatique de la parole (ASR) sur le discours à alternance codique. Il évalue cinq fournisseurs d'ASR sur quatre paires de langues, y compris arabe-anglais, persan-anglais et allemand-anglais, en utilisant un pipeline de sélection de données sophistiqué en deux étapes.

Code-Switching benchmarking ASR multilingual

CASETogether AI Blog·il y a 12j

How Together AI built the world’s fastest speech-to-text stack

Together AI a développé la pile de reconnaissance vocale la plus rapide sur Artificial Analysis. Ils ont traité l'ASR comme un problème de systèmes complets plutôt que comme un simple problème d'inférence GPU.

AI systems Speech-to-Text Together AI ASR

RESEARCHHugging Face Blog·06/05/2026

Adding Benchmaxxer Repellant to the Open ASR Leaderboard

Ce contenu annonce l'intégration de Benchmaxxer Repellant dans le classement Open ASR. Cet ajout vise à améliorer la robustesse et l'équité des évaluations des systèmes de reconnaissance automatique de la parole.

AI models evaluation benchmarking ASR