Introducing MAI-Transcribe-1.5 | Microsoft AI Models
Microsoft presenta MAI-Transcribe-1.5, un nuevo modelo de IA centrado en la transcripción. Este lanzamiento forma parte de la colección de modelos de IA de Microsoft.

Microsoft presenta MAI-Transcribe-1.5, un nuevo modelo de IA centrado en la transcripción. Este lanzamiento forma parte de la colección de modelos de IA de Microsoft.

Este contenido describe el objetivo y los requisitos de una herramienta de "Detector Humano en Vivo" para centros de llamadas. Su función principal es identificar cuándo una llamada se ha conectado con una persona real, distinguiéndola de los anuncios automáticos, para evitar esperas innecesarias de los clientes.
CONCORD es un marco A2A de IA basada en voz y consciente de la privacidad que asegura la captura de voz solo del propietario mediante verificación de locutor en tiempo real. Recupera el contexto faltante a través de la resolución espacio-temporal y consultas A2A mínimas, logrando un 91,4% de recall.
Apesar da estagnação da precisão em benchmarks acadêmicos de fala para texto, as aplicações industriais exigem melhor reconhecimento de vocabulário raro e contextual. Este artigo introduz o Contextual Earnings-22, um novo dataset e benchmark para promover a pesquisa e revelar avanços no reconhecimento contextual de fala com vocabulário personalizado.
Esta investigación propone la Aumentación Selectiva, un enfoque de bootstrapping para mejorar la transcripción fonética automática universal (APT) transfiriendo selectivamente distinciones lingüísticas para abordar la limitación de datos de entrenamiento de alta calidad. El método aumentó la precisión del sonorización de oclusivas en un 17,6% e introdujo el reconocimiento de la aspiración, utilizando datos aumentados de un idioma auxiliar como el hindi.
Este artículo detalla el diseño y la implementación de un agente de IA controlado por voz en Python, que opera localmente. Utiliza OpenAI Whisper para transcripción, un LLM para clasificación de intenciones y ejecuta operaciones en el sistema de archivos, buscando automatización personalizada.
Este artículo presenta un sistema TTS-STT autónomo para cerrar la brecha en el ASR de idiomas índicos de nicho donde fallan los sistemas comerciales y de código abierto. Sintetiza audio denso en entidades para mejorar significativamente la Tasa de Aciertos de Entidades en conjuntos de datos desafiantes para idiomas como el telugu.
El principal desafío en el desarrollo de IA de voz para la estimación en obras no es la tecnología en sí, sino la experiencia del usuario en entornos de trabajo manual. Este artículo detalla las decisiones técnicas y de UX tomadas por una empresa para optimizar las interfaces de voz para trabajadores manuales, buscando evitar errores comunes.
Este contenido describe el modelo Transformer-Transducer, una arquitectura novedosa para el reconocimiento de voz de extremo a extremo que aprovecha el mecanismo de autoatención de los Transformers. Se centra en mejorar la precisión y eficiencia de la transcripción del lenguaje hablado directamente a texto.
Este glosario define más de 25 términos esenciales en transcripción y reconocimiento de voz, como WER y diarización. Su objetivo es desmitificar la jerga técnica de la ciencia del habla, el aprendizaje automático y la ingeniería de audio para los usuarios de herramientas de IA.
Este contenido describe un agente de IA local controlado por voz, construido por el autor, que actúa directamente en la máquina del usuario. Puede crear archivos, generar código, abrir aplicaciones y navegar por sitios web, reduciendo la brecha entre un pensamiento y una acción en el ordenador.
SeaAlert es un marco basado en LLM para el análisis robusto de comunicaciones marítimas de socorro, que son difíciles debido al ruido y las desviaciones de formato. Para abordar la escasez de datos reales etiquetados, el proyecto desarrolla una tubería de generación de datos sintéticos utilizando un LLM.
Raon-Speech es un modelo de lenguaje de voz de 9 mil millones de parámetros de alto rendimiento para la comprensión, respuesta y generación de voz en inglés y coreano, logrando excelentes resultados en 42 benchmarks. Transforma con éxito un LLM pre-entrenado en un SpeechLM, manteniendo sólidas capacidades de texto a través de etapas de entrenamiento específicas.
Este artículo investiga fallas en los LLM de Audio al transcribir el habla con cambio de código inglés-mandarín, identificando problemas como la omisión de idioma y la traducción. La aplicación de la Optimización de Preferencia Directa (DPO) alinea los modelos para preservar el contenido en idiomas mixtos, lo que lleva a reducciones significativas en la Tasa de Error Mixta (MER).
Este artículo propone la primera evaluación de sesgos en el reconocimiento de voz multimodal, revelando diferencias sustanciales en la calidad del servicio en modelos como mWhisper-Flamingo y Gemini, basadas en el género y la etnia autodeclarados. Los hallazgos señalan la prioridad de los desarrolladores para evaluar, corregir y comunicar estos sesgos.
Este contenido anuncia la integración de Benchmaxxer Repellant en el Open ASR Leaderboard. Esta nueva adición tiene como objetivo mejorar la robustez y la equidad de las evaluaciones de sistemas de reconocimiento automático de voz.
OpenClaw Voice Assistant integra Voice Wake y Talk Mode para convertirse en un asistente de voz controlable, similar a Siri o Alexa. Utiliza una palabra de activación procesada en el dispositivo y puede ser impulsado por modelos de IA como Claude, GPT o Gemini, conectándose a las integraciones de OpenClaw.
Este contenido explora el fenómeno de la alucinación en el modelo Whisper, explicando por qué las transcripciones pueden repetir la misma frase. Detalla las causas de este comportamiento cuando el modelo procesa períodos de silencio.