← heapsort-ai

Speech Recognition

18 items

RESEARCHarXiv CS.CL·10/04/2026

Contextual Earnings-22: A Speech Recognition Benchmark with Custom Vocabulary in the Wild

Apesar da estagnação da precisão em benchmarks acadêmicos de fala para texto, as aplicações industriais exigem melhor reconhecimento de vocabulário raro e contextual. Este artigo introduz o Contextual Earnings-22, um novo dataset e benchmark para promover a pesquisa e revelar avanços no reconhecimento contextual de fala com vocabulário personalizado.

29
RESEARCHarXiv CS.CL·01/05/2026

Selective Augmentation: Improving Universal Automatic Phonetic Transcription via G2P Bootstrapping

Esta pesquisa propõe a Aumentação Seletiva, uma abordagem de bootstrapping para melhorar a transcrição fonética automática universal (APT) ao transferir seletivamente distinções linguísticas, abordando a limitação de dados de treinamento de alta qualidade. O método aumentou a precisão do vozeamento de plosivas em 17,6% e introduziu o reconhecimento de aspiração usando dados aumentados de uma língua auxiliar como o hindi.

28
RESEARCHarXiv CS.CL·06/05/2026

The TTS-STT Flywheel: Synthetic Entity-Dense Audio Closes the Indic ASR Gap Where Commercial and Open-Source Systems Fail

Este artigo apresenta um sistema de ciclo fechado TTS-STT (Text-to-Speech e Speech-to-Text) para preencher a lacuna de desempenho em sistemas ASR para línguas índicas de nicho. A abordagem utiliza áudio sintético denso em entidades para melhorar significativamente a Taxa de Acertos de Entidades, superando sistemas comerciais e de código aberto.

27
ARTICLEDEV.to AI·15/04/2026

Local Voice Controlled AI Agent

Este conteúdo descreve um agente de IA local controlado por voz, criado pelo autor, que executa ações diretamente na máquina do usuário. Ele pode criar arquivos, gerar código, abrir aplicativos e navegar na web, diminuindo a distância entre um pensamento e uma ação no computador.

27
RESEARCHarXiv CS.CL·14d atrás

Direct Preference Optimization for English-Mandarin Code-Switching Speech Recognition in Audio LLMs

Este artigo investiga falhas em LLMs de Áudio ao transcrever fala com comutação de código inglês-mandarim, identificando problemas como omissão de idioma e tradução. A aplicação da Otimização de Preferência Direta (DPO) alinha os modelos para preservar o conteúdo de idiomas mistos, resultando em reduções significativas da Taxa de Erro Mista (MER).

27