Introducing MAI-Transcribe-1.5 | Microsoft AI Models
A Microsoft apresenta o MAI-Transcribe-1.5, um novo modelo de IA focado em transcrição. Este lançamento faz parte da coleção de modelos de IA da Microsoft.

A Microsoft apresenta o MAI-Transcribe-1.5, um novo modelo de IA focado em transcrição. Este lançamento faz parte da coleção de modelos de IA da Microsoft.

Este conteúdo descreve o objetivo e os requisitos para uma ferramenta de "Detecção Humana ao Vivo" para call centers. O seu principal objetivo é identificar quando uma chamada se conectou a uma pessoa real, distinguindo-a de anúncios automatizados, para evitar esperas desnecessárias dos clientes.
CONCORD é uma estrutura A2A de IA baseada em fala consciente da privacidade que garante a captura de voz apenas do proprietário através de verificação de locutor em tempo real. Ele recupera o contexto ausente por meio de resolução espaço-temporal e consultas A2A mínimas, alcançando 91,4% de recall.
Apesar da estagnação da precisão em benchmarks acadêmicos de fala para texto, as aplicações industriais exigem melhor reconhecimento de vocabulário raro e contextual. Este artigo introduz o Contextual Earnings-22, um novo dataset e benchmark para promover a pesquisa e revelar avanços no reconhecimento contextual de fala com vocabulário personalizado.
Esta pesquisa propõe a Aumentação Seletiva, uma abordagem de bootstrapping para melhorar a transcrição fonética automática universal (APT) ao transferir seletivamente distinções linguísticas, abordando a limitação de dados de treinamento de alta qualidade. O método aumentou a precisão do vozeamento de plosivas em 17,6% e introduziu o reconhecimento de aspiração usando dados aumentados de uma língua auxiliar como o hindi.
Este artigo detalha o design e a implementação de um agente de IA controlado por voz em Python, que opera localmente. Ele utiliza OpenAI Whisper para transcrição, um LLM para classificação de intenção e executa operações no sistema de arquivos, visando preencher a lacuna na criação de ferramentas de automação de voz personalizadas.
Este artigo apresenta um sistema de ciclo fechado TTS-STT (Text-to-Speech e Speech-to-Text) para preencher a lacuna de desempenho em sistemas ASR para línguas índicas de nicho. A abordagem utiliza áudio sintético denso em entidades para melhorar significativamente a Taxa de Acertos de Entidades, superando sistemas comerciais e de código aberto.
O desafio principal no desenvolvimento de IA de voz para orçamentos em canteiros de obras não é a tecnologia em si, mas sim a experiência do usuário em ambientes operacionais. Este artigo detalha as decisões técnicas e de UX tomadas por uma empresa para otimizar interfaces de voz para trabalhadores de colarinho azul, visando evitar erros comuns.
Este conteúdo descreve o modelo Transformer-Transducer, uma arquitetura inovadora para reconhecimento de fala de ponta a ponta que utiliza o mecanismo de autoatenção dos Transformers. Ele se concentra em melhorar a precisão e a eficiência da transcrição da linguagem falada diretamente para texto.
Este glossário explica mais de 25 termos essenciais da transcrição e reconhecimento de fala, incluindo WER e diarização. O objetivo é desmistificar o jargão técnico para usuários de ferramentas de IA, cobrindo conceitos de ciência da fala, aprendizado de máquina e engenharia de áudio.
Este conteúdo descreve um agente de IA local controlado por voz, criado pelo autor, que executa ações diretamente na máquina do usuário. Ele pode criar arquivos, gerar código, abrir aplicativos e navegar na web, diminuindo a distância entre um pensamento e uma ação no computador.
SeaAlert é um framework baseado em LLM para análise robusta de comunicações de socorro marítimo, que são desafiadoras devido a ruído e desvios de formato. Para lidar com a escassez de dados reais rotulados, o projeto desenvolve um pipeline de geração de dados sintéticos usando um LLM.
Raon-Speech é um modelo de linguagem de fala de 9 bilhões de parâmetros para compreensão, resposta e geração de fala em inglês e coreano, alcançando desempenho superior em 42 benchmarks. Ele transforma eficazmente um LLM pré-treinado em um SpeechLM, mantendo fortes capacidades de texto através de estágios de treinamento específicos.
Este artigo investiga falhas em LLMs de Áudio ao transcrever fala com comutação de código inglês-mandarim, identificando problemas como omissão de idioma e tradução. A aplicação da Otimização de Preferência Direta (DPO) alinha os modelos para preservar o conteúdo de idiomas mistos, resultando em reduções significativas da Taxa de Erro Mista (MER).
Este artigo propõe a primeira avaliação de viés para o reconhecimento de fala multimodal, revelando diferenças significativas na qualidade do serviço em modelos como mWhisper-Flamingo e Gemini, baseadas em gênero e etnia autodeclarados. Os resultados apontam para a prioridade dos desenvolvedores em avaliar, corrigir e comunicar esses vieses.
Este conteúdo anuncia a integração do Benchmaxxer Repellant no Open ASR Leaderboard. Esta nova adição visa aumentar a robustez e a justiça das avaliações de sistemas de reconhecimento automático de fala.
O OpenClaw Voice Assistant integra Voice Wake e Talk Mode para se tornar um assistente de voz controlável, semelhante a Siri ou Alexa. Ele utiliza uma palavra de ativação processada no dispositivo e pode ser alimentado por modelos de IA como Claude, GPT ou Gemini, conectando-se às integrações OpenClaw.
Este conteúdo explora o fenômeno da alucinação no modelo Whisper, explicando por que transcrições podem repetir a mesma frase. Ele detalha as causas por trás desse comportamento quando o modelo processa períodos de silêncio.