Speech Recognition

18 items

NEWSMicrosoft Research (YouTube)·il y a 1j

Introducing MAI-Transcribe-1.5 | Microsoft AI Models

Microsoft présente MAI-Transcribe-1.5, un nouveau modèle d'IA axé sur la transcription. Ce lancement fait partie de la collection de modèles d'IA de Microsoft.

transcription AI models Product Launch Microsoft AI

Introducing MAI-Transcribe-1.5 | Microsoft AI Models

RESEARCH↑ trendingReddit r/MachineLearning·il y a 18j

Live Human Detector on Outbound Phone Calls [R]

Ce contenu décrit l'objectif et les exigences d'un outil de "Détection Humaine en Direct" pour les centres d'appels. Sa fonction principale est d'identifier quand un appel a été connecté à une personne réelle, en le distinguant des annonces automatisées, afin d'éviter les attentes inutiles des clients.

audio analysis customer service AI human detection call center automation

RESEARCHarXiv CS.AI·16/04/2026

Listening Alone, Understanding Together: Collaborative Context Recovery for Privacy-Aware AI

CONCORD est un cadre A2A d'IA basée sur la parole, respectueux de la vie privée, qui assure la capture vocale uniquement du propriétaire via la vérification en temps réel du locuteur. Il récupère le contexte manquant par résolution spatio-temporelle et requêtes A2A minimales, atteignant 91,4 % de rappel.

privacy AI Assistants Speech Recognition

RESEARCHarXiv CS.CL·10/04/2026

Contextual Earnings-22: A Speech Recognition Benchmark with Custom Vocabulary in the Wild

Apesar da estagnação da precisão em benchmarks acadêmicos de fala para texto, as aplicações industriais exigem melhor reconhecimento de vocabulário raro e contextual. Este artigo introduz o Contextual Earnings-22, um novo dataset e benchmark para promover a pesquisa e revelar avanços no reconhecimento contextual de fala com vocabulário personalizado.

Dataset custom vocabulary Speech-to-Text benchmark

RESEARCHarXiv CS.CL·01/05/2026

Selective Augmentation: Improving Universal Automatic Phonetic Transcription via G2P Bootstrapping

Cette recherche propose l'Augmentation Sélective, une approche de bootstrapping pour améliorer la transcription phonétique automatique universelle (APT) en transférant sélectivement des distinctions linguistiques, palliant ainsi le manque de données d'entraînement de haute qualité. La méthode a augmenté la précision du voisement des occlusives de 17,6% et introduit la reconnaissance de l'aspiration en utilisant des données augmentées d'une langue d'appoint comme l'hindi.

machine learning phonetics Data Augmentation Speech Recognition

ARTICLEDEV.to AI·12/04/2026

"Talk to Your Terminal: Building a Voice AI Agent in Python"

Cet article détaille la conception et l'implémentation d'un agent IA contrôlé par la voix en Python, fonctionnant localement. Il utilise OpenAI Whisper pour la transcription, un LLM pour la classification d'intention et exécute des opérations sur le système de fichiers, visant l'automatisation personnalisée.

Local AI Python Speech Recognition LLM

RESEARCHarXiv CS.CL·06/05/2026

The TTS-STT Flywheel: Synthetic Entity-Dense Audio Closes the Indic ASR Gap Where Commercial and Open-Source Systems Fail

Cet article introduit un système TTS-STT autonome pour combler les lacunes des systèmes ASR commerciaux et open-source pour les langues indiennes de domaine spécifique. Il synthétise des données audio riches en entités afin d'améliorer considérablement le taux de réussite des entités sur des ensembles de données difficiles pour des langues comme le télougou.

Indic languages machine learning TTS ASR

ARTICLEDEV.to AI·07/05/2026

Voice AI for jobsite estimating: a developer perspective

Le principal défi dans le développement de l'IA vocale pour l'estimation sur les chantiers n'est pas la technologie elle-même, mais l'expérience utilisateur dans des environnements de travail manuel. Cet article détaille les décisions techniques et d'UX prises par une entreprise pour optimiser les interfaces vocales pour les travailleurs manuels, visant à éviter les erreurs courantes.

UX/UI developer guide Speech Recognition voice AI

RESEARCHDEV.to AI·26/04/2026

Transformer-Transducer: End-to-End Speech Recognition with Self-Attention

Ce contenu décrit le modèle Transformer-Transducer, une nouvelle architecture pour la reconnaissance vocale de bout en bout qui utilise le mécanisme d'auto-attention des Transformers. Il vise à améliorer la précision et l'efficacité de la transcription du langage parlé directement en texte.

deep learning Transformer Speech Recognition

DOCDEV.to AI·18/04/2026

Transcription Glossary: 25+ Terms You Need to Know

Ce glossaire définit plus de 25 termes essentiels en transcription et reconnaissance vocale, tels que WER et la diarisation. Il vise à démystifier le jargon technique de la science du langage, de l'apprentissage automatique et de l'ingénierie audio pour les utilisateurs d'outils d'IA.

glossary audio-engineering machine learning ASR

ARTICLEDEV.to AI·15/04/2026

Local Voice Controlled AI Agent

Ce contenu décrit un agent IA local contrôlé par la voix, développé par l'auteur, qui agit directement sur la machine de l'utilisateur. Il peut créer des fichiers, générer du code, ouvrir des applications et naviguer sur le web, réduisant ainsi l'écart entre une pensée et une action sur l'ordinateur.

AI agent Local AI voice control Desktop automation

RESEARCHarXiv CS.CL·17/04/2026

SeaAlert: Critical Information Extraction From Maritime Distress Communications with Large Language Models

SeaAlert est un cadre basé sur les LLM pour l'analyse robuste des communications de détresse maritime, qui sont difficiles en raison du bruit et des écarts de format. Pour pallier le manque de données réelles étiquetées, le projet développe un pipeline de génération de données synthétiques à l'aide d'un LLM.

synthetic data Information Extraction NLP Speech Recognition

RESEARCHarXiv CS.CL·il y a 14j

Raon-Speech Technical Report

Raon-Speech est un modèle de langage vocal (SpeechLM) de 9 milliards de paramètres très performant pour la compréhension, la réponse et la génération de la parole en anglais et en coréen, obtenant d'excellents résultats sur 42 benchmarks. Il transforme avec succès un LLM pré-entraîné en un SpeechLM tout en préservant de solides capacités textuelles grâce à des étapes d'entraînement spécifiques.

multimodal AI Benchmarking natural language processing large language models

RESEARCHarXiv CS.CL·il y a 14j

Direct Preference Optimization for English-Mandarin Code-Switching Speech Recognition in Audio LLMs

Cet article étudie les défaillances des LLM audio lors de la transcription de la parole à commutation de code anglais-mandarin, identifiant des problèmes comme l'omission de langue et la traduction. L'application de l'Optimisation par Préférence Directe (DPO) aligne les modèles pour préserver le contenu multilingue, entraînant des réductions significatives du Taux d'Erreur Mixte (MER).

Multilingual AI Audio LLMs Code-Switching Direct Preference Optimization

RESEARCHarXiv CS.CL·il y a 8j

Your Multimodal Speech Model Says I Have a Face for Radio

Cet article propose la première évaluation des biais dans la reconnaissance vocale multimodale, mettant en évidence des différences significatives de qualité de service entre les modèles mWhisper-Flamingo et Gemini, basées sur le genre et l'ethnie autodéclarés. Ces résultats soulignent la nécessité pour les développeurs d'évaluer, de corriger et de communiquer ces biais.

multimodal AI AI bias ethnicity bias gender bias

RESEARCHHugging Face Blog·06/05/2026

Adding Benchmaxxer Repellant to the Open ASR Leaderboard

Ce contenu annonce l'intégration de Benchmaxxer Repellant dans le classement Open ASR. Cet ajout vise à améliorer la robustesse et l'équité des évaluations des systèmes de reconnaissance automatique de la parole.

AI models evaluation Benchmarking ASR

ARTICLEDEV.to AI·14/04/2026

OpenClaw Voice Assistant: Voice Wake and Talk Mode Setup

L'assistant vocal OpenClaw intègre Voice Wake et Talk Mode pour devenir un assistant vocal contrôlable, similaire à Siri ou Alexa. Il utilise un mot d'activation traité sur l'appareil et peut être alimenté par des modèles d'IA comme Claude, GPT ou Gemini, se connectant aux intégrations OpenClaw.

OpenClaw Voice Assistant AI Wake Word

ARTICLEDEV.to AI·14/04/2026

Whisper Hallucination on Silence: Why Your Transcript Loops the Same Phrase

Ce contenu explore le phénomène d'hallucination dans le modèle Whisper, expliquant pourquoi les transcriptions peuvent répéter la même phrase. Il détaille les causes de ce comportement lorsque le modèle traite des périodes de silence.

hallucination audio processing Whisper Model AI