Speech Recognition

18 items

RESEARCH↑ trendingReddit r/MachineLearning·vor 18T

Live Human Detector on Outbound Phone Calls [R]

Dieser Inhalt beschreibt das Ziel und die Anforderungen für ein "Live-Menschen-Detektor"-Tool für Callcenter. Seine Hauptfunktion ist es, zu erkennen, wann ein Anruf erfolgreich mit einer lebenden Person verbunden wurde, und diese von automatisierten Systemansagen zu unterscheiden, um unnötige Wartezeiten für Kunden zu vermeiden.

audio analysis customer service AI human detection call center automation

NEWSMicrosoft Research (YouTube)·vor 1T

Introducing MAI-Transcribe-1.5 | Microsoft AI Models

Microsoft stellt MAI-Transcribe-1.5 vor, ein neues KI-Modell, das auf Transkription spezialisiert ist. Diese Veröffentlichung ist Teil der KI-Modellsammlung von Microsoft.

transcription AI models Product Launch Microsoft AI

Introducing MAI-Transcribe-1.5 | Microsoft AI Models

RESEARCHarXiv CS.AI·4/16/2026

Listening Alone, Understanding Together: Collaborative Context Recovery for Privacy-Aware AI

CONCORD ist ein datenschutzfreundliches A2A-Framework für sprachbasierte KI-Assistenten, das mittels Echtzeit-Sprecherverifikation die Spracherfassung ausschließlich durch den Eigentümer sicherstellt. Es stellt fehlenden Kontext durch raumzeitliche Auflösung und minimale A2A-Abfragen wieder her und erreicht dabei eine Abrufquote von 91,4 %.

privacy AI Assistants Speech Recognition

RESEARCHarXiv CS.CL·4/10/2026

Contextual Earnings-22: A Speech Recognition Benchmark with Custom Vocabulary in the Wild

Apesar da estagnação da precisão em benchmarks acadêmicos de fala para texto, as aplicações industriais exigem melhor reconhecimento de vocabulário raro e contextual. Este artigo introduz o Contextual Earnings-22, um novo dataset e benchmark para promover a pesquisa e revelar avanços no reconhecimento contextual de fala com vocabulário personalizado.

Dataset custom vocabulary Speech-to-Text benchmark

RESEARCHarXiv CS.CL·5/1/2026

Selective Augmentation: Improving Universal Automatic Phonetic Transcription via G2P Bootstrapping

Diese Forschung schlägt „Selective Augmentation“ vor, einen Bootstrapping-Ansatz zur Verbesserung der universellen automatischen phonetischen Transkription (APT), indem sprachliche Unterscheidungen selektiv übertragen werden, um begrenzte hochwertige Trainingsdaten zu überwinden. Die Methode steigerte die Genauigkeit der Plosiv-Stimmhaftigkeit um 17,6 % und führte die Erkennung von Plosiv-Aspiration ein, indem sie Daten aus einer Hilfssprache wie Hindi nutzte.

machine learning phonetics Data Augmentation Speech Recognition

ARTICLEDEV.to AI·4/12/2026

"Talk to Your Terminal: Building a Voice AI Agent in Python"

Dieser Artikel beschreibt das Design und die Implementierung eines sprachgesteuerten KI-Agenten in Python, der lokal arbeitet. Er nutzt OpenAI Whisper zur Transkription, ein LLM zur Absichtsklassifizierung und führt Dateisystemoperationen aus, um personalisierte Automatisierung zu ermöglichen.

Local AI Python Speech Recognition LLM

RESEARCHarXiv CS.CL·5/6/2026

The TTS-STT Flywheel: Synthetic Entity-Dense Audio Closes the Indic ASR Gap Where Commercial and Open-Source Systems Fail

Dieses Papier stellt ein eigenständiges TTS-STT-Flywheel vor, um die Lücke bei Nischen-Indischen ASR zu schließen, wo kommerzielle und Open-Source-Systeme versagen. Es synthetisiert entitätsdichte Audiodaten, um die Entity-Hit-Rate auf anspruchsvollen Datensätzen für Sprachen wie Telugu signifikant zu verbessern.

Indic languages machine learning TTS ASR

ARTICLEDEV.to AI·5/7/2026

Voice AI for jobsite estimating: a developer perspective

Die Hauptschwierigkeit bei der Entwicklung von Sprach-KI für die Kostenschätzung auf Baustellen liegt nicht in der Technologie selbst, sondern in der Benutzererfahrung in gewerblichen Umgebungen. Dieser Artikel beschreibt die technischen und UX-Entscheidungen eines Unternehmens zur Optimierung von Sprachschnittstellen für Arbeiter, um häufige Fehler zu vermeiden.

UX/UI developer guide Speech Recognition voice-ai

RESEARCHDEV.to AI·4/26/2026

Transformer-Transducer: End-to-End Speech Recognition with Self-Attention

Dieser Inhalt beschreibt das Transformer-Transducer-Modell, eine neuartige Architektur für die End-to-End-Spracherkennung, die den Selbstaufmerksamkeitsmechanismus von Transformatoren nutzt. Es konzentriert sich auf die Verbesserung der Genauigkeit und Effizienz der direkten Transkription gesprochener Sprache in Text.

deep learning Transformer Speech Recognition

DOCDEV.to AI·4/18/2026

Transcription Glossary: 25+ Terms You Need to Know

Dieses Glossar definiert über 25 wesentliche Begriffe aus Transkription und Spracherkennung, wie WER und Diarisierung. Es zielt darauf ab, Fachjargon aus Sprachwissenschaft, maschinellem Lernen und Tontechnik für Nutzer von KI-Tools zu entmystifizieren.

glossary audio-engineering machine learning ASR

ARTICLEDEV.to AI·4/15/2026

Local Voice Controlled AI Agent

Dieser Inhalt beschreibt einen selbstgebauten, lokalen, sprachgesteuerten KI-Agenten, der direkt auf Ihrem Rechner agiert und über reine Konversation hinausgeht. Er kann diverse Aktionen wie Dateierstellung, Codegenerierung, das Öffnen von Anwendungen und Website-Browsing ausführen und so die Kluft zwischen Gedanke und Computerausführung erheblich überbrücken.

AI agent Local AI voice control Desktop automation

RESEARCHarXiv CS.CL·4/17/2026

SeaAlert: Critical Information Extraction From Maritime Distress Communications with Large Language Models

SeaAlert ist ein LLM-basiertes Framework zur robusten Analyse von Seenotfunkkommunikationen, die aufgrund von Rauschen, Formatabweichungen und ASR-Fehlern schwierig sind. Um den Mangel an realen, gelabelten Daten zu überwinden, nutzt das Framework eine LLM-gestützte Pipeline zur Generierung synthetischer Daten.

synthetic data Information Extraction NLP Speech Recognition

RESEARCHarXiv CS.CL·vor 14T

Raon-Speech Technical Report

Raon-Speech ist ein leistungsstarkes Sprachmodell (SpeechLM) mit 9 Milliarden Parametern für das Verständnis, die Beantwortung und die Generierung von englischer und koreanischer Sprache, das bei 42 Benchmarks hervorragende Ergebnisse erzielt. Es verwandelt erfolgreich ein vortrainiertes LLM in ein SpeechLM, wobei starke Textfähigkeiten durch spezifische Trainingsphasen erhalten bleiben.

multimodal AI Benchmarking Natural Language Processing large language models

RESEARCHarXiv CS.CL·vor 14T

Direct Preference Optimization for English-Mandarin Code-Switching Speech Recognition in Audio LLMs

Dieser Artikel untersucht Fehler in Audio-LLMs bei der Transkription von Englisch-Mandarin-Code-Switching-Sprache, wobei Probleme wie Sprachoauslassung und Übersetzung identifiziert werden. Die Anwendung der Direkten Präferenzoptimierung (DPO) richtet Modelle darauf aus, gemischtsprachige Inhalte zu bewahren, was zu signifikanten Reduktionen der Mixed Error Rate (MER) führt.

Multilingual AI Audio LLMs Code-Switching Direct Preference Optimization

RESEARCHarXiv CS.CL·vor 8T

Your Multimodal Speech Model Says I Have a Face for Radio

Dieser Artikel schlägt die erste Bias-Evaluierung für multimodale Spracherkennung vor, die erhebliche Qualitätsunterschiede bei mWhisper-Flamingo- und Gemini-Modellen basierend auf selbst angegebenem Geschlecht und Ethnizität aufzeigt. Die Ergebnisse weisen darauf hin, dass Entwickler der Bewertung, Behebung und Kommunikation dieser Verzerrungen Priorität einräumen müssen.

multimodal AI AI bias ethnicity bias gender bias

RESEARCHHugging Face Blog·5/6/2026

Adding Benchmaxxer Repellant to the Open ASR Leaderboard

Dieser Inhalt kündigt die Integration von Benchmaxxer Repellant in die Open ASR Bestenliste an. Diese neue Ergänzung zielt darauf ab, die Robustheit und Fairness der Bewertungen von automatischen Spracherkennungssystemen zu verbessern.

AI models evaluation Benchmarking ASR

ARTICLEDEV.to AI·4/14/2026

OpenClaw Voice Assistant: Voice Wake and Talk Mode Setup

Der OpenClaw Sprachassistent integriert Sprachaktivierung und Gesprächsmodus, um ein steuerbarer Sprachassistent ähnlich Siri oder Alexa zu werden. Er verwendet ein geräteintern verarbeitetes Weckwort und kann von KI-Modellen wie Claude, GPT oder Gemini betrieben werden, wobei er sich mit OpenClaw-Integrationen verbindet.

OpenClaw Voice Assistant AI Wake Word

ARTICLEDEV.to AI·4/14/2026

Whisper Hallucination on Silence: Why Your Transcript Loops the Same Phrase

Dieser Inhalt untersucht das Phänomen der Halluzination im Whisper-Modell und erklärt, warum Transkripte dieselbe Phrase wiederholen können. Er erläutert die Ursachen dieses Verhaltens, wenn das Modell Stilleperioden verarbeitet.

hallucination audio processing Whisper Model AI