RESEARCH27
MIST: Multimodal Interactive Speech-based Tool-calling Conversational Assistants for Smart Homes
arXiv CS.CL·11 de maio de 2026
Este artigo introduz o MIST, um dataset sintético de código multiconversação e acionado por voz para dispositivos IoT. Os autores identificam uma lacuna significativa de desempenho entre LLMs multimodais de pesos abertos e fechados neste dataset, indicando uma necessidade de pesquisa adicional.
Ler original ↗