← heapsort-ai

Speech Recognition

18 items

RESEARCHarXiv CS.CL·10/04/2026

Contextual Earnings-22: A Speech Recognition Benchmark with Custom Vocabulary in the Wild

Apesar da estagnação da precisão em benchmarks acadêmicos de fala para texto, as aplicações industriais exigem melhor reconhecimento de vocabulário raro e contextual. Este artigo introduz o Contextual Earnings-22, um novo dataset e benchmark para promover a pesquisa e revelar avanços no reconhecimento contextual de fala com vocabulário personalizado.

29
RESEARCHarXiv CS.CL·01/05/2026

Selective Augmentation: Improving Universal Automatic Phonetic Transcription via G2P Bootstrapping

Cette recherche propose l'Augmentation Sélective, une approche de bootstrapping pour améliorer la transcription phonétique automatique universelle (APT) en transférant sélectivement des distinctions linguistiques, palliant ainsi le manque de données d'entraînement de haute qualité. La méthode a augmenté la précision du voisement des occlusives de 17,6% et introduit la reconnaissance de l'aspiration en utilisant des données augmentées d'une langue d'appoint comme l'hindi.

28
RESEARCHarXiv CS.CL·06/05/2026

The TTS-STT Flywheel: Synthetic Entity-Dense Audio Closes the Indic ASR Gap Where Commercial and Open-Source Systems Fail

Cet article introduit un système TTS-STT autonome pour combler les lacunes des systèmes ASR commerciaux et open-source pour les langues indiennes de domaine spécifique. Il synthétise des données audio riches en entités afin d'améliorer considérablement le taux de réussite des entités sur des ensembles de données difficiles pour des langues comme le télougou.

27
ARTICLEDEV.to AI·07/05/2026

Voice AI for jobsite estimating: a developer perspective

Le principal défi dans le développement de l'IA vocale pour l'estimation sur les chantiers n'est pas la technologie elle-même, mais l'expérience utilisateur dans des environnements de travail manuel. Cet article détaille les décisions techniques et d'UX prises par une entreprise pour optimiser les interfaces vocales pour les travailleurs manuels, visant à éviter les erreurs courantes.

27
ARTICLEDEV.to AI·15/04/2026

Local Voice Controlled AI Agent

Ce contenu décrit un agent IA local contrôlé par la voix, développé par l'auteur, qui agit directement sur la machine de l'utilisateur. Il peut créer des fichiers, générer du code, ouvrir des applications et naviguer sur le web, réduisant ainsi l'écart entre une pensée et une action sur l'ordinateur.

27
RESEARCHarXiv CS.CL·17/04/2026

SeaAlert: Critical Information Extraction From Maritime Distress Communications with Large Language Models

SeaAlert est un cadre basé sur les LLM pour l'analyse robuste des communications de détresse maritime, qui sont difficiles en raison du bruit et des écarts de format. Pour pallier le manque de données réelles étiquetées, le projet développe un pipeline de génération de données synthétiques à l'aide d'un LLM.

27
RESEARCHarXiv CS.CL·il y a 14j

Raon-Speech Technical Report

Raon-Speech est un modèle de langage vocal (SpeechLM) de 9 milliards de paramètres très performant pour la compréhension, la réponse et la génération de la parole en anglais et en coréen, obtenant d'excellents résultats sur 42 benchmarks. Il transforme avec succès un LLM pré-entraîné en un SpeechLM tout en préservant de solides capacités textuelles grâce à des étapes d'entraînement spécifiques.

27
RESEARCHarXiv CS.CL·il y a 14j

Direct Preference Optimization for English-Mandarin Code-Switching Speech Recognition in Audio LLMs

Cet article étudie les défaillances des LLM audio lors de la transcription de la parole à commutation de code anglais-mandarin, identifiant des problèmes comme l'omission de langue et la traduction. L'application de l'Optimisation par Préférence Directe (DPO) aligne les modèles pour préserver le contenu multilingue, entraînant des réductions significatives du Taux d'Erreur Mixte (MER).

27
RESEARCHarXiv CS.CL·il y a 8j

Your Multimodal Speech Model Says I Have a Face for Radio

Cet article propose la première évaluation des biais dans la reconnaissance vocale multimodale, mettant en évidence des différences significatives de qualité de service entre les modèles mWhisper-Flamingo et Gemini, basées sur le genre et l'ethnie autodéclarés. Ces résultats soulignent la nécessité pour les développeurs d'évaluer, de corriger et de communiquer ces biais.

27