RESEARCHarXiv CS.CL·11/5/2026
MIST: Multimodal Interactive Speech-based Tool-calling Conversational Assistants for Smart Homes
Este artículo presenta MIST, un conjunto de datos sintético de generación de código multiconversación y controlado por voz para dispositivos IoT. Los autores encuentran una brecha significativa de rendimiento entre los LLMs multimodales de pesos abiertos y cerrados en MIST, lo que sugiere un amplio margen de mejora.
27