Introducing MAI-Transcribe-1.5 | Microsoft AI Models
Microsoft présente MAI-Transcribe-1.5, un nouveau modèle d'IA axé sur la transcription. Ce lancement fait partie de la collection de modèles d'IA de Microsoft.

Microsoft présente MAI-Transcribe-1.5, un nouveau modèle d'IA axé sur la transcription. Ce lancement fait partie de la collection de modèles d'IA de Microsoft.

Ce contenu décrit l'objectif et les exigences d'un outil de "Détection Humaine en Direct" pour les centres d'appels. Sa fonction principale est d'identifier quand un appel a été connecté à une personne réelle, en le distinguant des annonces automatisées, afin d'éviter les attentes inutiles des clients.
CONCORD est un cadre A2A d'IA basée sur la parole, respectueux de la vie privée, qui assure la capture vocale uniquement du propriétaire via la vérification en temps réel du locuteur. Il récupère le contexte manquant par résolution spatio-temporelle et requêtes A2A minimales, atteignant 91,4 % de rappel.
Apesar da estagnação da precisão em benchmarks acadêmicos de fala para texto, as aplicações industriais exigem melhor reconhecimento de vocabulário raro e contextual. Este artigo introduz o Contextual Earnings-22, um novo dataset e benchmark para promover a pesquisa e revelar avanços no reconhecimento contextual de fala com vocabulário personalizado.
Cette recherche propose l'Augmentation Sélective, une approche de bootstrapping pour améliorer la transcription phonétique automatique universelle (APT) en transférant sélectivement des distinctions linguistiques, palliant ainsi le manque de données d'entraînement de haute qualité. La méthode a augmenté la précision du voisement des occlusives de 17,6% et introduit la reconnaissance de l'aspiration en utilisant des données augmentées d'une langue d'appoint comme l'hindi.
Cet article détaille la conception et l'implémentation d'un agent IA contrôlé par la voix en Python, fonctionnant localement. Il utilise OpenAI Whisper pour la transcription, un LLM pour la classification d'intention et exécute des opérations sur le système de fichiers, visant l'automatisation personnalisée.
Cet article introduit un système TTS-STT autonome pour combler les lacunes des systèmes ASR commerciaux et open-source pour les langues indiennes de domaine spécifique. Il synthétise des données audio riches en entités afin d'améliorer considérablement le taux de réussite des entités sur des ensembles de données difficiles pour des langues comme le télougou.
Le principal défi dans le développement de l'IA vocale pour l'estimation sur les chantiers n'est pas la technologie elle-même, mais l'expérience utilisateur dans des environnements de travail manuel. Cet article détaille les décisions techniques et d'UX prises par une entreprise pour optimiser les interfaces vocales pour les travailleurs manuels, visant à éviter les erreurs courantes.
Ce contenu décrit le modèle Transformer-Transducer, une nouvelle architecture pour la reconnaissance vocale de bout en bout qui utilise le mécanisme d'auto-attention des Transformers. Il vise à améliorer la précision et l'efficacité de la transcription du langage parlé directement en texte.
Ce glossaire définit plus de 25 termes essentiels en transcription et reconnaissance vocale, tels que WER et la diarisation. Il vise à démystifier le jargon technique de la science du langage, de l'apprentissage automatique et de l'ingénierie audio pour les utilisateurs d'outils d'IA.
Ce contenu décrit un agent IA local contrôlé par la voix, développé par l'auteur, qui agit directement sur la machine de l'utilisateur. Il peut créer des fichiers, générer du code, ouvrir des applications et naviguer sur le web, réduisant ainsi l'écart entre une pensée et une action sur l'ordinateur.
SeaAlert est un cadre basé sur les LLM pour l'analyse robuste des communications de détresse maritime, qui sont difficiles en raison du bruit et des écarts de format. Pour pallier le manque de données réelles étiquetées, le projet développe un pipeline de génération de données synthétiques à l'aide d'un LLM.
Raon-Speech est un modèle de langage vocal (SpeechLM) de 9 milliards de paramètres très performant pour la compréhension, la réponse et la génération de la parole en anglais et en coréen, obtenant d'excellents résultats sur 42 benchmarks. Il transforme avec succès un LLM pré-entraîné en un SpeechLM tout en préservant de solides capacités textuelles grâce à des étapes d'entraînement spécifiques.
Cet article étudie les défaillances des LLM audio lors de la transcription de la parole à commutation de code anglais-mandarin, identifiant des problèmes comme l'omission de langue et la traduction. L'application de l'Optimisation par Préférence Directe (DPO) aligne les modèles pour préserver le contenu multilingue, entraînant des réductions significatives du Taux d'Erreur Mixte (MER).
Cet article propose la première évaluation des biais dans la reconnaissance vocale multimodale, mettant en évidence des différences significatives de qualité de service entre les modèles mWhisper-Flamingo et Gemini, basées sur le genre et l'ethnie autodéclarés. Ces résultats soulignent la nécessité pour les développeurs d'évaluer, de corriger et de communiquer ces biais.
Ce contenu annonce l'intégration de Benchmaxxer Repellant dans le classement Open ASR. Cet ajout vise à améliorer la robustesse et l'équité des évaluations des systèmes de reconnaissance automatique de la parole.
L'assistant vocal OpenClaw intègre Voice Wake et Talk Mode pour devenir un assistant vocal contrôlable, similaire à Siri ou Alexa. Il utilise un mot d'activation traité sur l'appareil et peut être alimenté par des modèles d'IA comme Claude, GPT ou Gemini, se connectant aux intégrations OpenClaw.
Ce contenu explore le phénomène d'hallucination dans le modèle Whisper, expliquant pourquoi les transcriptions peuvent répéter la même phrase. Il détaille les causes de ce comportement lorsque le modèle traite des périodes de silence.