← heapsort-ai

Speech Recognition

18 items

RESEARCHarXiv CS.CL·10/4/2026

Contextual Earnings-22: A Speech Recognition Benchmark with Custom Vocabulary in the Wild

Apesar da estagnação da precisão em benchmarks acadêmicos de fala para texto, as aplicações industriais exigem melhor reconhecimento de vocabulário raro e contextual. Este artigo introduz o Contextual Earnings-22, um novo dataset e benchmark para promover a pesquisa e revelar avanços no reconhecimento contextual de fala com vocabulário personalizado.

29
RESEARCHarXiv CS.CL·1/5/2026

Selective Augmentation: Improving Universal Automatic Phonetic Transcription via G2P Bootstrapping

Esta investigación propone la Aumentación Selectiva, un enfoque de bootstrapping para mejorar la transcripción fonética automática universal (APT) transfiriendo selectivamente distinciones lingüísticas para abordar la limitación de datos de entrenamiento de alta calidad. El método aumentó la precisión del sonorización de oclusivas en un 17,6% e introdujo el reconocimiento de la aspiración, utilizando datos aumentados de un idioma auxiliar como el hindi.

28
RESEARCHarXiv CS.CL·6/5/2026

The TTS-STT Flywheel: Synthetic Entity-Dense Audio Closes the Indic ASR Gap Where Commercial and Open-Source Systems Fail

Este artículo presenta un sistema TTS-STT autónomo para cerrar la brecha en el ASR de idiomas índicos de nicho donde fallan los sistemas comerciales y de código abierto. Sintetiza audio denso en entidades para mejorar significativamente la Tasa de Aciertos de Entidades en conjuntos de datos desafiantes para idiomas como el telugu.

27
ARTICLEDEV.to AI·15/4/2026

Local Voice Controlled AI Agent

Este contenido describe un agente de IA local controlado por voz, construido por el autor, que actúa directamente en la máquina del usuario. Puede crear archivos, generar código, abrir aplicaciones y navegar por sitios web, reduciendo la brecha entre un pensamiento y una acción en el ordenador.

27
RESEARCHarXiv CS.CL·17/4/2026

SeaAlert: Critical Information Extraction From Maritime Distress Communications with Large Language Models

SeaAlert es un marco basado en LLM para el análisis robusto de comunicaciones marítimas de socorro, que son difíciles debido al ruido y las desviaciones de formato. Para abordar la escasez de datos reales etiquetados, el proyecto desarrolla una tubería de generación de datos sintéticos utilizando un LLM.

27
RESEARCHarXiv CS.CL·hace 14d

Raon-Speech Technical Report

Raon-Speech es un modelo de lenguaje de voz de 9 mil millones de parámetros de alto rendimiento para la comprensión, respuesta y generación de voz en inglés y coreano, logrando excelentes resultados en 42 benchmarks. Transforma con éxito un LLM pre-entrenado en un SpeechLM, manteniendo sólidas capacidades de texto a través de etapas de entrenamiento específicas.

27
RESEARCHarXiv CS.CL·hace 14d

Direct Preference Optimization for English-Mandarin Code-Switching Speech Recognition in Audio LLMs

Este artículo investiga fallas en los LLM de Audio al transcribir el habla con cambio de código inglés-mandarín, identificando problemas como la omisión de idioma y la traducción. La aplicación de la Optimización de Preferencia Directa (DPO) alinea los modelos para preservar el contenido en idiomas mixtos, lo que lleva a reducciones significativas en la Tasa de Error Mixta (MER).

27