heapsort
RESEARCH27

Your Multimodal Speech Model Says I Have a Face for Radio

arXiv CS.CL·1 de junio de 2026

Este artículo propone la primera evaluación de sesgos en el reconocimiento de voz multimodal, revelando diferencias sustanciales en la calidad del servicio en modelos como mWhisper-Flamingo y Gemini, basadas en el género y la etnia autodeclarados. Los hallazgos señalan la prioridad de los desarrolladores para evaluar, corregir y comunicar estos sesgos.

Leer original