RESEARCH27
MIST: Multimodal Interactive Speech-based Tool-calling Conversational Assistants for Smart Homes
arXiv CS.CL·11 de mayo de 2026
Este artículo presenta MIST, un conjunto de datos sintético de generación de código multiconversación y controlado por voz para dispositivos IoT. Los autores encuentran una brecha significativa de rendimiento entre los LLMs multimodales de pesos abiertos y cerrados en MIST, lo que sugiere un amplio margen de mejora.
Leer original ↗