heapsort
RESEARCH28

Hybrid CNN-Transformer Architecture for Arabic Speech Emotion Recognition

arXiv CS.CL·10 avril 2026

Este artigo apresenta um sistema de Reconhecimento de Emoção da Fala (SER) em árabe, baseado em uma arquitetura híbrida CNN-Transformer. O modelo combina camadas convolucionais para extração de características espectrais e codificadores Transformer para capturar dependências temporais, alcançando 97,8% de precisão e 0,98 de F1-score macro.

Lire l'original