← heapsort-ai

ASR

11 items

NEWS↑ trendingReddit r/LocalLLaMA·4/12/2026

mtmd: qwen3 audio support (qwen3-omni and qwen3-asr)

Das Qwen3-Modell unterstützt nun Audioeingaben über seine Versionen `qwen3-omni-moe` (multimodal mit Seh- und Audioeingabe) und `qwen3-asr` (Audio-Spracherkennung). GGUF-Modelle für Qwen3-Omni (30B-Varianten) und Qwen3-ASR (1.7B und 0.6B) stehen auf Hugging Face zur gemeinschaftlichen Nutzung bereit.

mtmd: qwen3 audio support (qwen3-omni and qwen3-asr)
42
ARTICLE↑ trendingReddit r/MachineLearning·4/10/2026

Building a chatbot with ASR [P]

Um desenvolvedor busca a melhor abordagem ASR para integrar speech-to-text em um chatbot, enfrentando restrições orçamentárias e de segurança que o levam a preferir modelos auto-hospedados como Whisper em vez de APIs externas. Ele solicita insights sobre os trade-offs entre modelos locais e APIs, performance e facilidade de implantação para um lançamento de MVP.

35
ARTICLEDEV.to AI·4/19/2026

The Unit Economics of Speech-to-Text Just Collapsed

Die Wirtschaftlichkeit der Spracherkennung ist zusammengebrochen, da die Preise für Cloud-ASR hoch bleiben, obwohl effiziente Modelle wie Distil-Whisper lokal auf CPUs mit Grenzkosten nahe Null betrieben werden können. Jüngste Fortschritte, wie whisper.cpp, haben leistungsstarke KI-Inferenz ohne teure Cloud-GPUs ermöglicht und stellen bestehende Dienstleistungsmodelle in Frage.

27
RESEARCHarXiv CS.CL·5/6/2026

The TTS-STT Flywheel: Synthetic Entity-Dense Audio Closes the Indic ASR Gap Where Commercial and Open-Source Systems Fail

Dieses Papier stellt ein eigenständiges TTS-STT-Flywheel vor, um die Lücke bei Nischen-Indischen ASR zu schließen, wo kommerzielle und Open-Source-Systeme versagen. Es synthetisiert entitätsdichte Audiodaten, um die Entity-Hit-Rate auf anspruchsvollen Datensätzen für Sprachen wie Telugu signifikant zu verbessern.

27
RESEARCHarXiv CS.CL·4/16/2026

A Proactive EMR Assistant for Doctor-Patient Dialogue: Streaming ASR, Belief Stabilization, and Preliminary Controlled Evaluation

Dieses Papier stellt einen proaktiven EMR-Assistenten für den Arzt-Patienten-Dialog vor, der entwickelt wurde, um die Einschränkungen passiver Systeme durch die Integration von Streaming-ASR, Glaubensstabilisierung und Aktionsplanung zu überwinden. Das System wurde in einer vorläufigen kontrollierten Umgebung evaluiert und erreichte einen F1-Wert von 0,84 sowie einen Recall@5 von 0,87.

27
RESEARCHarXiv CS.CL·vor 21T

Benchmarking Commercial ASR Systems on Code-Switching Speech: Arabic, Persian, and German

Diese Forschung stellt einen neuen Benchmark zur Bewertung kommerzieller ASR-Systeme (Automatic Speech Recognition) bei Code-Switching-Sprache vor. Es werden fünf ASR-Anbieter über vier Sprachpaare, darunter Arabisch-Englisch, Persisch-Englisch und Deutsch-Englisch, unter Verwendung einer ausgeklügelten zweistufigen Datenauswahlpipeline bewertet.

27