RESEARCHarXiv CS.CL·4/10/2026
Hybrid CNN-Transformer Architecture for Arabic Speech Emotion Recognition
Este artigo apresenta um sistema de Reconhecimento de Emoção da Fala (SER) em árabe, baseado em uma arquitetura híbrida CNN-Transformer. O modelo combina camadas convolucionais para extração de características espectrais e codificadores Transformer para capturar dependências temporais, alcançando 97,8% de precisão e 0,98 de F1-score macro.
28