Speech Recognition

18 items

NEWSMicrosoft Research (YouTube)·hace 1d

Introducing MAI-Transcribe-1.5 | Microsoft AI Models

Microsoft presenta MAI-Transcribe-1.5, un nuevo modelo de IA centrado en la transcripción. Este lanzamiento forma parte de la colección de modelos de IA de Microsoft.

transcription AI models Product Launch Microsoft AI

Introducing MAI-Transcribe-1.5 | Microsoft AI Models

RESEARCH↑ trendingReddit r/MachineLearning·hace 18d

Live Human Detector on Outbound Phone Calls [R]

Este contenido describe el objetivo y los requisitos de una herramienta de "Detector Humano en Vivo" para centros de llamadas. Su función principal es identificar cuándo una llamada se ha conectado con una persona real, distinguiéndola de los anuncios automáticos, para evitar esperas innecesarias de los clientes.

audio analysis customer service AI human detection call center automation

RESEARCHarXiv CS.AI·16/4/2026

Listening Alone, Understanding Together: Collaborative Context Recovery for Privacy-Aware AI

CONCORD es un marco A2A de IA basada en voz y consciente de la privacidad que asegura la captura de voz solo del propietario mediante verificación de locutor en tiempo real. Recupera el contexto faltante a través de la resolución espacio-temporal y consultas A2A mínimas, logrando un 91,4% de recall.

privacy AI Assistants Speech Recognition

RESEARCHarXiv CS.CL·10/4/2026

Contextual Earnings-22: A Speech Recognition Benchmark with Custom Vocabulary in the Wild

Apesar da estagnação da precisão em benchmarks acadêmicos de fala para texto, as aplicações industriais exigem melhor reconhecimento de vocabulário raro e contextual. Este artigo introduz o Contextual Earnings-22, um novo dataset e benchmark para promover a pesquisa e revelar avanços no reconhecimento contextual de fala com vocabulário personalizado.

Dataset custom vocabulary Speech-to-Text benchmark

RESEARCHarXiv CS.CL·1/5/2026

Selective Augmentation: Improving Universal Automatic Phonetic Transcription via G2P Bootstrapping

Esta investigación propone la Aumentación Selectiva, un enfoque de bootstrapping para mejorar la transcripción fonética automática universal (APT) transfiriendo selectivamente distinciones lingüísticas para abordar la limitación de datos de entrenamiento de alta calidad. El método aumentó la precisión del sonorización de oclusivas en un 17,6% e introdujo el reconocimiento de la aspiración, utilizando datos aumentados de un idioma auxiliar como el hindi.

machine learning phonetics Data Augmentation Speech Recognition

ARTICLEDEV.to AI·12/4/2026

"Talk to Your Terminal: Building a Voice AI Agent in Python"

Este artículo detalla el diseño y la implementación de un agente de IA controlado por voz en Python, que opera localmente. Utiliza OpenAI Whisper para transcripción, un LLM para clasificación de intenciones y ejecuta operaciones en el sistema de archivos, buscando automatización personalizada.

Local AI Python Speech Recognition LLM

RESEARCHarXiv CS.CL·6/5/2026

The TTS-STT Flywheel: Synthetic Entity-Dense Audio Closes the Indic ASR Gap Where Commercial and Open-Source Systems Fail

Este artículo presenta un sistema TTS-STT autónomo para cerrar la brecha en el ASR de idiomas índicos de nicho donde fallan los sistemas comerciales y de código abierto. Sintetiza audio denso en entidades para mejorar significativamente la Tasa de Aciertos de Entidades en conjuntos de datos desafiantes para idiomas como el telugu.

Indic languages machine learning TTS ASR

ARTICLEDEV.to AI·7/5/2026

Voice AI for jobsite estimating: a developer perspective

El principal desafío en el desarrollo de IA de voz para la estimación en obras no es la tecnología en sí, sino la experiencia del usuario en entornos de trabajo manual. Este artículo detalla las decisiones técnicas y de UX tomadas por una empresa para optimizar las interfaces de voz para trabajadores manuales, buscando evitar errores comunes.

UX/UI developer guide Speech Recognition voice AI

RESEARCHDEV.to AI·26/4/2026

Transformer-Transducer: End-to-End Speech Recognition with Self-Attention

Este contenido describe el modelo Transformer-Transducer, una arquitectura novedosa para el reconocimiento de voz de extremo a extremo que aprovecha el mecanismo de autoatención de los Transformers. Se centra en mejorar la precisión y eficiencia de la transcripción del lenguaje hablado directamente a texto.

deep learning Transformer Speech Recognition

DOCDEV.to AI·18/4/2026

Transcription Glossary: 25+ Terms You Need to Know

Este glosario define más de 25 términos esenciales en transcripción y reconocimiento de voz, como WER y diarización. Su objetivo es desmitificar la jerga técnica de la ciencia del habla, el aprendizaje automático y la ingeniería de audio para los usuarios de herramientas de IA.

glossary audio-engineering machine learning ASR

ARTICLEDEV.to AI·15/4/2026

Local Voice Controlled AI Agent

Este contenido describe un agente de IA local controlado por voz, construido por el autor, que actúa directamente en la máquina del usuario. Puede crear archivos, generar código, abrir aplicaciones y navegar por sitios web, reduciendo la brecha entre un pensamiento y una acción en el ordenador.

AI agent Local AI voice control Desktop automation

RESEARCHarXiv CS.CL·17/4/2026

SeaAlert: Critical Information Extraction From Maritime Distress Communications with Large Language Models

SeaAlert es un marco basado en LLM para el análisis robusto de comunicaciones marítimas de socorro, que son difíciles debido al ruido y las desviaciones de formato. Para abordar la escasez de datos reales etiquetados, el proyecto desarrolla una tubería de generación de datos sintéticos utilizando un LLM.

synthetic data Information Extraction NLP Speech Recognition

RESEARCHarXiv CS.CL·hace 14d

Raon-Speech Technical Report

Raon-Speech es un modelo de lenguaje de voz de 9 mil millones de parámetros de alto rendimiento para la comprensión, respuesta y generación de voz en inglés y coreano, logrando excelentes resultados en 42 benchmarks. Transforma con éxito un LLM pre-entrenado en un SpeechLM, manteniendo sólidas capacidades de texto a través de etapas de entrenamiento específicas.

multimodal AI Benchmarking natural language processing large language models

RESEARCHarXiv CS.CL·hace 14d

Direct Preference Optimization for English-Mandarin Code-Switching Speech Recognition in Audio LLMs

Este artículo investiga fallas en los LLM de Audio al transcribir el habla con cambio de código inglés-mandarín, identificando problemas como la omisión de idioma y la traducción. La aplicación de la Optimización de Preferencia Directa (DPO) alinea los modelos para preservar el contenido en idiomas mixtos, lo que lleva a reducciones significativas en la Tasa de Error Mixta (MER).

Multilingual AI Audio LLMs Code-Switching Direct Preference Optimization

RESEARCHarXiv CS.CL·hace 8d

Your Multimodal Speech Model Says I Have a Face for Radio

Este artículo propone la primera evaluación de sesgos en el reconocimiento de voz multimodal, revelando diferencias sustanciales en la calidad del servicio en modelos como mWhisper-Flamingo y Gemini, basadas en el género y la etnia autodeclarados. Los hallazgos señalan la prioridad de los desarrolladores para evaluar, corregir y comunicar estos sesgos.

multimodal AI AI bias ethnicity bias gender bias

RESEARCHHugging Face Blog·6/5/2026

Adding Benchmaxxer Repellant to the Open ASR Leaderboard

Este contenido anuncia la integración de Benchmaxxer Repellant en el Open ASR Leaderboard. Esta nueva adición tiene como objetivo mejorar la robustez y la equidad de las evaluaciones de sistemas de reconocimiento automático de voz.

AI models evaluation Benchmarking ASR

ARTICLEDEV.to AI·14/4/2026

OpenClaw Voice Assistant: Voice Wake and Talk Mode Setup

OpenClaw Voice Assistant integra Voice Wake y Talk Mode para convertirse en un asistente de voz controlable, similar a Siri o Alexa. Utiliza una palabra de activación procesada en el dispositivo y puede ser impulsado por modelos de IA como Claude, GPT o Gemini, conectándose a las integraciones de OpenClaw.

OpenClaw Voice Assistant AI Wake Word

ARTICLEDEV.to AI·14/4/2026

Whisper Hallucination on Silence: Why Your Transcript Loops the Same Phrase

Este contenido explora el fenómeno de la alucinación en el modelo Whisper, explicando por qué las transcripciones pueden repetir la misma frase. Detalla las causas de este comportamiento cuando el modelo procesa períodos de silencio.

hallucination audio processing Whisper Model AI