← heapsort-ai

multimodal AI

100 items

ARTICLEDEV.to AI·3h atrás

<think>

Este conteúdo é um rascunho de plano para um artigo sobre o teste de modelos de IA multimodal. O autor planeja compartilhar sua descoberta pessoal, benchmarking e dados de preços de vários modelos.

62
RESEARCHarXiv CS.AI·16h atrás

I Know What You Meme, Even If it Emerged Today: Understanding Evolving Memes through Open-World Knowledge Acquisition

Este artigo introduz o framework zero-shot Query Retrieve Conclude para interpretar memes multimodais dinâmicos, que frequentemente exigem conhecimento de fundo atualizado. Ele identifica conhecimento ausente, recupera evidências da web e sintetiza informações para compreensão e detecção de memes, mostrando melhorias em benchmarks de 2024 a 2026.

60
RESEARCHarXiv CS.AI·2d atrás

ChatHealthAI: Aligning Electronic Health Record Representations with Large Language Models for Grounded Clinical Reasoning

ChatHealthAI propõe uma estrutura multimodal para alinhar representações estruturadas de registros eletrônicos de saúde (EHR) com grandes modelos de linguagem (LLMs). Essa integração permite um raciocínio clínico fundamentado em linguagem natural e uma previsão precisa do paciente, preenchendo a lacuna entre modelos preditivos de EHR e o raciocínio interpretável de LLM.

46
ARTICLEDEV.to AI·2d atrás

<think>The user wants me to rewrite an article about multimodal AI APIs as if I were a cloud architect. Let me follow all the critical rules:

Este artigo apresenta a análise de um arquiteto de nuvem sobre APIs de IA multimodal, destacando considerações cruciais como escalabilidade, latência e confiabilidade para ambientes empresariais. Ele compara modelos de visão, áudio e omni, fornecendo um guia prático para a construção de sistemas de IA robustos e de alto desempenho.

45
NEWS↑ trendingReddit r/LocalLLaMA·16/04/2026

Qwen3.6-35B-A3B released!

Foi lançado e tornado open-source o modelo Qwen3.6-35B-A3B, um modelo sparse MoE com 35B de parâmetros totais e 3B ativos sob licença Apache 2.0. Ele se destaca por sua capacidade de codificação agêntica, percepção e raciocínio multimodal, sendo eficiente, poderoso e versátil.

Qwen3.6-35B-A3B released!
42
RESEARCH↑ trendingReddit r/LocalLLaMA·21d atrás

internlm/Intern-S2-Preview · Hugging Face

Intern-S2-Preview é um modelo de fundação multimodal científico eficiente de 35B que alcança desempenho comparável a modelos de trilhões de parâmetros através da exploração de escalonamento de tarefas e treinamento em cadeia completa. Ele se destaca em centenas de tarefas científicas profissionais, mantendo forte raciocínio geral, compreensão multimodal e capacidades de agente.

internlm/Intern-S2-Preview · Hugging Face
42
NEWS↑ trendingReddit r/LocalLLaMA·12/04/2026

mtmd: qwen3 audio support (qwen3-omni and qwen3-asr)

O modelo Qwen3 agora oferece suporte a entrada de áudio através de suas versões `qwen3-omni-moe` (multimodal com entrada de visão e áudio) e `qwen3-asr` (reconhecimento automático de fala). Modelos GGUF para Qwen3-Omni (variantes de 30B) e Qwen3-ASR (1.7B e 0.6B) estão disponíveis no Hugging Face para uso da comunidade.

mtmd: qwen3 audio support (qwen3-omni and qwen3-asr)
42
RESEARCHarXiv CS.CL·1d atrás

MM-BizRAG: Rethinking Multimodal Retrieval-Augmented Generation for General Purpose Enterprise Q&A

MM-BizRAG propõe uma abordagem direta para geração aumentada por recuperação multimodal em Q&A corporativo, lidando explicitamente com informações estruturadas em documentos complexos. Utiliza uma divisão sensível à estrutura do documento e pipelines de ingestão específicos de orientação para processar melhor vários tipos de documentos.

40