← heapsort-ai

Speech Recognition

18 items

RESEARCH↑ trendingReddit r/MachineLearning·vor 18T

Live Human Detector on Outbound Phone Calls [R]

Dieser Inhalt beschreibt das Ziel und die Anforderungen für ein "Live-Menschen-Detektor"-Tool für Callcenter. Seine Hauptfunktion ist es, zu erkennen, wann ein Anruf erfolgreich mit einer lebenden Person verbunden wurde, und diese von automatisierten Systemansagen zu unterscheiden, um unnötige Wartezeiten für Kunden zu vermeiden.

42
RESEARCHarXiv CS.AI·4/16/2026

Listening Alone, Understanding Together: Collaborative Context Recovery for Privacy-Aware AI

CONCORD ist ein datenschutzfreundliches A2A-Framework für sprachbasierte KI-Assistenten, das mittels Echtzeit-Sprecherverifikation die Spracherfassung ausschließlich durch den Eigentümer sicherstellt. Es stellt fehlenden Kontext durch raumzeitliche Auflösung und minimale A2A-Abfragen wieder her und erreicht dabei eine Abrufquote von 91,4 %.

31
RESEARCHarXiv CS.CL·4/10/2026

Contextual Earnings-22: A Speech Recognition Benchmark with Custom Vocabulary in the Wild

Apesar da estagnação da precisão em benchmarks acadêmicos de fala para texto, as aplicações industriais exigem melhor reconhecimento de vocabulário raro e contextual. Este artigo introduz o Contextual Earnings-22, um novo dataset e benchmark para promover a pesquisa e revelar avanços no reconhecimento contextual de fala com vocabulário personalizado.

29
RESEARCHarXiv CS.CL·5/1/2026

Selective Augmentation: Improving Universal Automatic Phonetic Transcription via G2P Bootstrapping

Diese Forschung schlägt „Selective Augmentation“ vor, einen Bootstrapping-Ansatz zur Verbesserung der universellen automatischen phonetischen Transkription (APT), indem sprachliche Unterscheidungen selektiv übertragen werden, um begrenzte hochwertige Trainingsdaten zu überwinden. Die Methode steigerte die Genauigkeit der Plosiv-Stimmhaftigkeit um 17,6 % und führte die Erkennung von Plosiv-Aspiration ein, indem sie Daten aus einer Hilfssprache wie Hindi nutzte.

28
RESEARCHarXiv CS.CL·5/6/2026

The TTS-STT Flywheel: Synthetic Entity-Dense Audio Closes the Indic ASR Gap Where Commercial and Open-Source Systems Fail

Dieses Papier stellt ein eigenständiges TTS-STT-Flywheel vor, um die Lücke bei Nischen-Indischen ASR zu schließen, wo kommerzielle und Open-Source-Systeme versagen. Es synthetisiert entitätsdichte Audiodaten, um die Entity-Hit-Rate auf anspruchsvollen Datensätzen für Sprachen wie Telugu signifikant zu verbessern.

27
ARTICLEDEV.to AI·4/15/2026

Local Voice Controlled AI Agent

Dieser Inhalt beschreibt einen selbstgebauten, lokalen, sprachgesteuerten KI-Agenten, der direkt auf Ihrem Rechner agiert und über reine Konversation hinausgeht. Er kann diverse Aktionen wie Dateierstellung, Codegenerierung, das Öffnen von Anwendungen und Website-Browsing ausführen und so die Kluft zwischen Gedanke und Computerausführung erheblich überbrücken.

27
RESEARCHarXiv CS.CL·4/17/2026

SeaAlert: Critical Information Extraction From Maritime Distress Communications with Large Language Models

SeaAlert ist ein LLM-basiertes Framework zur robusten Analyse von Seenotfunkkommunikationen, die aufgrund von Rauschen, Formatabweichungen und ASR-Fehlern schwierig sind. Um den Mangel an realen, gelabelten Daten zu überwinden, nutzt das Framework eine LLM-gestützte Pipeline zur Generierung synthetischer Daten.

27
RESEARCHarXiv CS.CL·vor 14T

Raon-Speech Technical Report

Raon-Speech ist ein leistungsstarkes Sprachmodell (SpeechLM) mit 9 Milliarden Parametern für das Verständnis, die Beantwortung und die Generierung von englischer und koreanischer Sprache, das bei 42 Benchmarks hervorragende Ergebnisse erzielt. Es verwandelt erfolgreich ein vortrainiertes LLM in ein SpeechLM, wobei starke Textfähigkeiten durch spezifische Trainingsphasen erhalten bleiben.

27
RESEARCHarXiv CS.CL·vor 14T

Direct Preference Optimization for English-Mandarin Code-Switching Speech Recognition in Audio LLMs

Dieser Artikel untersucht Fehler in Audio-LLMs bei der Transkription von Englisch-Mandarin-Code-Switching-Sprache, wobei Probleme wie Sprachoauslassung und Übersetzung identifiziert werden. Die Anwendung der Direkten Präferenzoptimierung (DPO) richtet Modelle darauf aus, gemischtsprachige Inhalte zu bewahren, was zu signifikanten Reduktionen der Mixed Error Rate (MER) führt.

27
RESEARCHarXiv CS.CL·vor 8T

Your Multimodal Speech Model Says I Have a Face for Radio

Dieser Artikel schlägt die erste Bias-Evaluierung für multimodale Spracherkennung vor, die erhebliche Qualitätsunterschiede bei mWhisper-Flamingo- und Gemini-Modellen basierend auf selbst angegebenem Geschlecht und Ethnizität aufzeigt. Die Ergebnisse weisen darauf hin, dass Entwickler der Bewertung, Behebung und Kommunikation dieser Verzerrungen Priorität einräumen müssen.

27