ASR

11 items

RESEARCHHugging Face Blog·vor 21Std

Can Voice Agents Handle Bilingual Customers? Benchmarking Frontier ASR on Code-Switched Speech

Dieser Inhalt bewertet die Fähigkeit von Sprachagenten und fortschrittlichen ASR-Systemen, mit zweisprachigen Kunden umzugehen, die Code-Switching-Sprache verwenden. Er präsentiert ein Benchmarking der Leistung dieser Technologien in komplexen sprachlichen Umgebungen.

Code-Switching Voice Agents benchmarking Bilingual Speech

NEWS↑ trendingReddit r/LocalLLaMA·4/12/2026

mtmd: qwen3 audio support (qwen3-omni and qwen3-asr)

Das Qwen3-Modell unterstützt nun Audioeingaben über seine Versionen `qwen3-omni-moe` (multimodal mit Seh- und Audioeingabe) und `qwen3-asr` (Audio-Spracherkennung). GGUF-Modelle für Qwen3-Omni (30B-Varianten) und Qwen3-ASR (1.7B und 0.6B) stehen auf Hugging Face zur gemeinschaftlichen Nutzung bereit.

multimodal AI audio GGUF Qwen3

mtmd: qwen3 audio support (qwen3-omni and qwen3-asr)

ARTICLE↑ trendingReddit r/MachineLearning·4/10/2026

Building a chatbot with ASR [P]

Um desenvolvedor busca a melhor abordagem ASR para integrar speech-to-text em um chatbot, enfrentando restrições orçamentárias e de segurança que o levam a preferir modelos auto-hospedados como Whisper em vez de APIs externas. Ele solicita insights sobre os trade-offs entre modelos locais e APIs, performance e facilidade de implantação para um lançamento de MVP.

self-hosted AI Whisper Chatbot Speech-to-Text

DOCHugging Face Blog·vor 6T

How to Fine-Tune Nemotron 3.5 ASR for Your Language, Domain, or Accent

Dieser Inhalt bietet eine Anleitung zum Fine-Tuning des Nemotron 3.5 Automatic Speech Recognition (ASR) Modells. Ziel ist es, Benutzern zu helfen, das Modell für bestimmte Sprachen, Domänen oder Akzente anzupassen und seine Leistung zu optimieren.

learning Nemotron 3.5 AI ASR

ARTICLEDEV.to AI·4/19/2026

The Unit Economics of Speech-to-Text Just Collapsed

Die Wirtschaftlichkeit der Spracherkennung ist zusammengebrochen, da die Preise für Cloud-ASR hoch bleiben, obwohl effiziente Modelle wie Distil-Whisper lokal auf CPUs mit Grenzkosten nahe Null betrieben werden können. Jüngste Fortschritte, wie whisper.cpp, haben leistungsstarke KI-Inferenz ohne teure Cloud-GPUs ermöglicht und stellen bestehende Dienstleistungsmodelle in Frage.

Open Source AI cloud computing Speech-to-Text unit economics

RESEARCHarXiv CS.CL·5/6/2026

The TTS-STT Flywheel: Synthetic Entity-Dense Audio Closes the Indic ASR Gap Where Commercial and Open-Source Systems Fail

Dieses Papier stellt ein eigenständiges TTS-STT-Flywheel vor, um die Lücke bei Nischen-Indischen ASR zu schließen, wo kommerzielle und Open-Source-Systeme versagen. Es synthetisiert entitätsdichte Audiodaten, um die Entity-Hit-Rate auf anspruchsvollen Datensätzen für Sprachen wie Telugu signifikant zu verbessern.

Indic languages Machine Learning TTS ASR

DOCDEV.to AI·4/18/2026

Transcription Glossary: 25+ Terms You Need to Know

Dieses Glossar definiert über 25 wesentliche Begriffe aus Transkription und Spracherkennung, wie WER und Diarisierung. Es zielt darauf ab, Fachjargon aus Sprachwissenschaft, maschinellem Lernen und Tontechnik für Nutzer von KI-Tools zu entmystifizieren.

glossary audio-engineering Machine Learning ASR

RESEARCHarXiv CS.CL·4/16/2026

A Proactive EMR Assistant for Doctor-Patient Dialogue: Streaming ASR, Belief Stabilization, and Preliminary Controlled Evaluation

Dieses Papier stellt einen proaktiven EMR-Assistenten für den Arzt-Patienten-Dialog vor, der entwickelt wurde, um die Einschränkungen passiver Systeme durch die Integration von Streaming-ASR, Glaubensstabilisierung und Aktionsplanung zu überwinden. Das System wurde in einer vorläufigen kontrollierten Umgebung evaluiert und erreichte einen F1-Wert von 0,84 sowie einen Recall@5 von 0,87.

Natural Language Processing ASR healthcare AI medical AI

RESEARCHarXiv CS.CL·vor 21T

Benchmarking Commercial ASR Systems on Code-Switching Speech: Arabic, Persian, and German

Diese Forschung stellt einen neuen Benchmark zur Bewertung kommerzieller ASR-Systeme (Automatic Speech Recognition) bei Code-Switching-Sprache vor. Es werden fünf ASR-Anbieter über vier Sprachpaare, darunter Arabisch-Englisch, Persisch-Englisch und Deutsch-Englisch, unter Verwendung einer ausgeklügelten zweistufigen Datenauswahlpipeline bewertet.

Code-Switching benchmarking ASR multilingual

CASETogether AI Blog·vor 12T

How Together AI built the world’s fastest speech-to-text stack

Together AI hat den weltweit schnellsten Speech-to-Text-Stack auf Artificial Analysis entwickelt. Sie behandelten ASR als ein vollständiges Systemproblem und nicht nur als ein GPU-Inferenzproblem.

AI systems Speech-to-Text Together AI ASR

RESEARCHHugging Face Blog·5/6/2026

Adding Benchmaxxer Repellant to the Open ASR Leaderboard

Dieser Inhalt kündigt die Integration von Benchmaxxer Repellant in die Open ASR Bestenliste an. Diese neue Ergänzung zielt darauf ab, die Robustheit und Fairness der Bewertungen von automatischen Spracherkennungssystemen zu verbessern.

AI models evaluation benchmarking ASR