Speech Recognition

18 items

NEWSMicrosoft Research (YouTube)·1d atrás

Introducing MAI-Transcribe-1.5 | Microsoft AI Models

A Microsoft apresenta o MAI-Transcribe-1.5, um novo modelo de IA focado em transcrição. Este lançamento faz parte da coleção de modelos de IA da Microsoft.

transcription AI models Product Launch Microsoft AI

Introducing MAI-Transcribe-1.5 | Microsoft AI Models

RESEARCH↑ trendingReddit r/MachineLearning·18d atrás

Live Human Detector on Outbound Phone Calls [R]

Este conteúdo descreve o objetivo e os requisitos para uma ferramenta de "Detecção Humana ao Vivo" para call centers. O seu principal objetivo é identificar quando uma chamada se conectou a uma pessoa real, distinguindo-a de anúncios automatizados, para evitar esperas desnecessárias dos clientes.

audio analysis customer service AI human detection call center automation

RESEARCHarXiv CS.AI·16/04/2026

Listening Alone, Understanding Together: Collaborative Context Recovery for Privacy-Aware AI

CONCORD é uma estrutura A2A de IA baseada em fala consciente da privacidade que garante a captura de voz apenas do proprietário através de verificação de locutor em tempo real. Ele recupera o contexto ausente por meio de resolução espaço-temporal e consultas A2A mínimas, alcançando 91,4% de recall.

privacy AI Assistants Speech Recognition

RESEARCHarXiv CS.CL·10/04/2026

Contextual Earnings-22: A Speech Recognition Benchmark with Custom Vocabulary in the Wild

Apesar da estagnação da precisão em benchmarks acadêmicos de fala para texto, as aplicações industriais exigem melhor reconhecimento de vocabulário raro e contextual. Este artigo introduz o Contextual Earnings-22, um novo dataset e benchmark para promover a pesquisa e revelar avanços no reconhecimento contextual de fala com vocabulário personalizado.

Dataset custom vocabulary Speech-to-Text benchmark

RESEARCHarXiv CS.CL·01/05/2026

Selective Augmentation: Improving Universal Automatic Phonetic Transcription via G2P Bootstrapping

Esta pesquisa propõe a Aumentação Seletiva, uma abordagem de bootstrapping para melhorar a transcrição fonética automática universal (APT) ao transferir seletivamente distinções linguísticas, abordando a limitação de dados de treinamento de alta qualidade. O método aumentou a precisão do vozeamento de plosivas em 17,6% e introduziu o reconhecimento de aspiração usando dados aumentados de uma língua auxiliar como o hindi.

machine learning phonetics Data Augmentation Speech Recognition

ARTICLEDEV.to AI·12/04/2026

"Talk to Your Terminal: Building a Voice AI Agent in Python"

Este artigo detalha o design e a implementação de um agente de IA controlado por voz em Python, que opera localmente. Ele utiliza OpenAI Whisper para transcrição, um LLM para classificação de intenção e executa operações no sistema de arquivos, visando preencher a lacuna na criação de ferramentas de automação de voz personalizadas.

Local AI Python Speech Recognition LLM

RESEARCHarXiv CS.CL·06/05/2026

The TTS-STT Flywheel: Synthetic Entity-Dense Audio Closes the Indic ASR Gap Where Commercial and Open-Source Systems Fail

Este artigo apresenta um sistema de ciclo fechado TTS-STT (Text-to-Speech e Speech-to-Text) para preencher a lacuna de desempenho em sistemas ASR para línguas índicas de nicho. A abordagem utiliza áudio sintético denso em entidades para melhorar significativamente a Taxa de Acertos de Entidades, superando sistemas comerciais e de código aberto.

Indic languages machine learning TTS ASR

ARTICLEDEV.to AI·07/05/2026

Voice AI for jobsite estimating: a developer perspective

O desafio principal no desenvolvimento de IA de voz para orçamentos em canteiros de obras não é a tecnologia em si, mas sim a experiência do usuário em ambientes operacionais. Este artigo detalha as decisões técnicas e de UX tomadas por uma empresa para otimizar interfaces de voz para trabalhadores de colarinho azul, visando evitar erros comuns.

UX/UI developer guide Speech Recognition voice-ai

RESEARCHDEV.to AI·26/04/2026

Transformer-Transducer: End-to-End Speech Recognition with Self-Attention

Este conteúdo descreve o modelo Transformer-Transducer, uma arquitetura inovadora para reconhecimento de fala de ponta a ponta que utiliza o mecanismo de autoatenção dos Transformers. Ele se concentra em melhorar a precisão e a eficiência da transcrição da linguagem falada diretamente para texto.

deep learning Transformer Speech Recognition

DOCDEV.to AI·18/04/2026

Transcription Glossary: 25+ Terms You Need to Know

Este glossário explica mais de 25 termos essenciais da transcrição e reconhecimento de fala, incluindo WER e diarização. O objetivo é desmistificar o jargão técnico para usuários de ferramentas de IA, cobrindo conceitos de ciência da fala, aprendizado de máquina e engenharia de áudio.

glossary audio-engineering machine learning ASR

ARTICLEDEV.to AI·15/04/2026

Local Voice Controlled AI Agent

Este conteúdo descreve um agente de IA local controlado por voz, criado pelo autor, que executa ações diretamente na máquina do usuário. Ele pode criar arquivos, gerar código, abrir aplicativos e navegar na web, diminuindo a distância entre um pensamento e uma ação no computador.

AI agent Local AI voice control Desktop automation

RESEARCHarXiv CS.CL·17/04/2026

SeaAlert: Critical Information Extraction From Maritime Distress Communications with Large Language Models

SeaAlert é um framework baseado em LLM para análise robusta de comunicações de socorro marítimo, que são desafiadoras devido a ruído e desvios de formato. Para lidar com a escassez de dados reais rotulados, o projeto desenvolve um pipeline de geração de dados sintéticos usando um LLM.

synthetic data Information Extraction NLP Speech Recognition

RESEARCHarXiv CS.CL·14d atrás

Raon-Speech Technical Report

Raon-Speech é um modelo de linguagem de fala de 9 bilhões de parâmetros para compreensão, resposta e geração de fala em inglês e coreano, alcançando desempenho superior em 42 benchmarks. Ele transforma eficazmente um LLM pré-treinado em um SpeechLM, mantendo fortes capacidades de texto através de estágios de treinamento específicos.

multimodal AI Benchmarking Natural Language Processing large language models

RESEARCHarXiv CS.CL·14d atrás

Direct Preference Optimization for English-Mandarin Code-Switching Speech Recognition in Audio LLMs

Este artigo investiga falhas em LLMs de Áudio ao transcrever fala com comutação de código inglês-mandarim, identificando problemas como omissão de idioma e tradução. A aplicação da Otimização de Preferência Direta (DPO) alinha os modelos para preservar o conteúdo de idiomas mistos, resultando em reduções significativas da Taxa de Erro Mista (MER).

Multilingual AI Audio LLMs Code-Switching Direct Preference Optimization

RESEARCHarXiv CS.CL·8d atrás

Your Multimodal Speech Model Says I Have a Face for Radio

Este artigo propõe a primeira avaliação de viés para o reconhecimento de fala multimodal, revelando diferenças significativas na qualidade do serviço em modelos como mWhisper-Flamingo e Gemini, baseadas em gênero e etnia autodeclarados. Os resultados apontam para a prioridade dos desenvolvedores em avaliar, corrigir e comunicar esses vieses.

multimodal AI AI bias ethnicity bias gender bias

RESEARCHHugging Face Blog·06/05/2026

Adding Benchmaxxer Repellant to the Open ASR Leaderboard

Este conteúdo anuncia a integração do Benchmaxxer Repellant no Open ASR Leaderboard. Esta nova adição visa aumentar a robustez e a justiça das avaliações de sistemas de reconhecimento automático de fala.

AI models evaluation Benchmarking ASR

ARTICLEDEV.to AI·14/04/2026

OpenClaw Voice Assistant: Voice Wake and Talk Mode Setup

O OpenClaw Voice Assistant integra Voice Wake e Talk Mode para se tornar um assistente de voz controlável, semelhante a Siri ou Alexa. Ele utiliza uma palavra de ativação processada no dispositivo e pode ser alimentado por modelos de IA como Claude, GPT ou Gemini, conectando-se às integrações OpenClaw.

OpenClaw Voice Assistant AI Wake Word

ARTICLEDEV.to AI·14/04/2026

Whisper Hallucination on Silence: Why Your Transcript Loops the Same Phrase

Este conteúdo explora o fenômeno da alucinação no modelo Whisper, explicando por que transcrições podem repetir a mesma frase. Ele detalha as causas por trás desse comportamento quando o modelo processa períodos de silêncio.

hallucination audio processing Whisper Model AI