multimodal AI

100 items

NEWSDEV.to AI·2h atrás

Gemma 4 12B: Google's encoder-free multimodal AI now runs on a laptop

O Google lançou o Gemma 4 12B, um modelo de IA multimodal sem codificador que oferece desempenho próximo ao de modelos de 26B, mas roda em laptops de consumo com 16GB de RAM. Sua arquitetura inovadora permite que visão e áudio sejam processados diretamente pelo backbone do LLM, eliminando a necessidade de redes de codificação separadas.

AI models multimodal AI Gemma Google

ARTICLEDEV.to AI·3h atrás

<think>

Este conteúdo é um rascunho de plano para um artigo sobre o teste de modelos de IA multimodal. O autor planeja compartilhar sua descoberta pessoal, benchmarking e dados de preços de vários modelos.

AI models multimodal AI testing learning

RESEARCHarXiv CS.AI·16h atrás

I Know What You Meme, Even If it Emerged Today: Understanding Evolving Memes through Open-World Knowledge Acquisition

Este artigo introduz o framework zero-shot Query Retrieve Conclude para interpretar memes multimodais dinâmicos, que frequentemente exigem conhecimento de fundo atualizado. Ele identifica conhecimento ausente, recupera evidências da web e sintetiza informações para compreensão e detecção de memes, mostrando melhorias em benchmarks de 2024 a 2026.

meme understanding multimodal AI knowledge acquisition memes

RESEARCHarXiv CS.CL·16h atrás

MCBench: A Multicontext Safety Assessment Benchmark for Omni Large Language Models

MCBench é um novo benchmark para avaliar a segurança de LLMs Omni que processam dados visuais, de áudio e texto, revelando desafios na integração de modalidades para julgamentos de segurança. Ele destaca que os LLMs atuais falham na avaliação robusta da segurança em cenários críticos.

multimodal AI LLMs Cross-modal reasoning benchmarks

ARTICLEAnalytics Vidhya·9h atrás

Google Gemma 4 12B: Architecture, Benchmarks, Access, and Hands-on Guide for Developers

Google lançou o Gemma 4 12B Unified, um modelo multimodal de código aberto para texto, imagem, áudio e vídeo, com uma janela de contexto de 256K e um design eficiente. A introdução levanta questões sobre a estratégia de IA mais ampla do Google.

multimodal AI Google AI open-source AI Gemma

NEWSHugging Face Blog·1d atrás

Nemotron 3.5 Content Safety: Customizable Multimodal Safety for Global Enterprise AI

Nemotron 3.5 Content Safety é uma solução que oferece segurança multimodal personalizável para inteligência artificial empresarial global. Ela visa garantir a proteção de conteúdo em diversas modalidades para empresas.

multimodal AI security content moderation enterprise AI

ARTICLE↑ trendingReddit r/MachineLearning·16/04/2026

Can frontier AI models actually read a painting? [R]

Um experimento testou modelos de IA multimodais de ponta, como Gemini 3.1 Pro e GPT-5.4, na avaliação de arte a partir de imagens. O estudo revelou uma lacuna entre reconhecimento visual e compromisso com a avaliação, sugerindo que "ver" algo e confiar no que é visto são diferentes para as IAs.

multimodal AI AI capabilities art appraisal benchmarking

RESEARCHarXiv CS.AI·2d atrás

ChatHealthAI: Aligning Electronic Health Record Representations with Large Language Models for Grounded Clinical Reasoning

ChatHealthAI propõe uma estrutura multimodal para alinhar representações estruturadas de registros eletrônicos de saúde (EHR) com grandes modelos de linguagem (LLMs). Essa integração permite um raciocínio clínico fundamentado em linguagem natural e uma previsão precisa do paciente, preenchendo a lacuna entre modelos preditivos de EHR e o raciocínio interpretável de LLM.

Clinical Reasoning multimodal AI Electronic Health Records Large language models

ARTICLEDEV.to AI·2d atrás

<think>The user wants me to rewrite an article about multimodal AI APIs as if I were a cloud architect. Let me follow all the critical rules:

Este artigo apresenta a análise de um arquiteto de nuvem sobre APIs de IA multimodal, destacando considerações cruciais como escalabilidade, latência e confiabilidade para ambientes empresariais. Ele compara modelos de visão, áudio e omni, fornecendo um guia prático para a construção de sistemas de IA robustos e de alto desempenho.

multimodal AI API management cloud architecture benchmarking

DOC↑ trendingReddit r/LocalLLaMA·23d atrás

AIDC-AI/Ovis2.6-80B-A3B · Hugging Face

O Ovis2.6-80B-A3B é um avanço nos Modelos de Linguagem Grandes Multimodais (MLLMs), introduzindo uma arquitetura Mixture-of-Experts (MoE) para desempenho superior e menor custo de serviço. Ele também aprimora a compreensão de contexto longo, alta resolução, raciocínio visual e documentos densos em informações.

AI models multimodal AI Mixture of Experts Large language models

NEWSDEV.to AI·1d atrás

Gemma 4 12B shows how far local multimodal AI has moved

O Gemma 4 12B do Google DeepMind é um modelo multimodal de IA notável, projetado para execução local e em dispositivos, facilitando o desenvolvimento de IA em laptops. Ele suporta entrada de texto, imagens e áudio nativo, simplificando a experimentação e os fluxos de trabalho no dispositivo para desenvolvedores.

AI models multimodal AI on-device AI Gemma

NEWS↑ trendingReddit r/LocalLLaMA·29d atrás

feat: Add Mimo v2.5 model support by AesSedai · Pull Request #22493 · ggml-org/llama.cpp

O conteúdo anuncia a adição de suporte para o modelo MiMo v2.5 no llama.cpp e descreve sua arquitetura. O MiMo v2.5 é um modelo Sparse MoE com 310B de parâmetros totais e 15B ativados, que suporta modalidades de texto, imagem, vídeo e áudio com uma impressionante extensão de contexto.

multimodal AI Model architecture llama.cpp MoE

feat: Add Mimo v2.5 model support by AesSedai · Pull Request #22493 · ggml-org/llama.cpp

NEWS↑ trendingReddit r/LocalLLaMA·16/04/2026

Qwen3.6-35B-A3B released!

Foi lançado e tornado open-source o modelo Qwen3.6-35B-A3B, um modelo sparse MoE com 35B de parâmetros totais e 3B ativos sob licença Apache 2.0. Ele se destaca por sua capacidade de codificação agêntica, percepção e raciocínio multimodal, sendo eficiente, poderoso e versátil.

multimodal AI open-source AI AI model sparse MoE

RESEARCH↑ trendingReddit r/LocalLLaMA·21d atrás

internlm/Intern-S2-Preview · Hugging Face

Intern-S2-Preview é um modelo de fundação multimodal científico eficiente de 35B que alcança desempenho comparável a modelos de trilhões de parâmetros através da exploração de escalonamento de tarefas e treinamento em cadeia completa. Ele se destaca em centenas de tarefas científicas profissionais, mantendo forte raciocínio geral, compreensão multimodal e capacidades de agente.

AI models multimodal AI model training Foundation Models

internlm/Intern-S2-Preview · Hugging Face

RESEARCH↑ trendingReddit r/LocalLLaMA·23d atrás

sensenova/SenseNova-U1-A3B-MoT · Hugging Face

SenseNova U1 é uma nova série de modelos multimodais nativos que unifica compreensão, raciocínio e geração multimodal numa arquitetura monolítica. Estes modelos inovadores pensam e agem nativamente através da linguagem e visão, marcando uma mudança de paradigma fundamental na IA multimodal.

Language Models multimodal AI unified architecture SenseNova

sensenova/SenseNova-U1-A3B-MoT · Hugging Face

ARTICLE↑ trendingReddit r/LocalLLaMA·23/04/2026

An Overnight Stack for Qwen3.6–27B: 85 TPS, 125K Context, Vision — on One RTX 3090 | by Wasif Basharat | Apr, 2026

O título descreve uma otimização impressionante para o modelo Qwen3.6–27B, alcançando 85 TPS e 125K de contexto com capacidades de visão em uma única RTX 3090. Este é um feito técnico significativo para a implantação eficiente de LLMs.

optimization multimodal AI GPU Large language models

An Overnight Stack for Qwen3.6–27B: 85 TPS, 125K Context, Vision — on One RTX 3090 | by Wasif Basharat | Apr, 2026

NEWS↑ trendingReddit r/LocalLLaMA·12/04/2026

mtmd: qwen3 audio support (qwen3-omni and qwen3-asr)

O modelo Qwen3 agora oferece suporte a entrada de áudio através de suas versões `qwen3-omni-moe` (multimodal com entrada de visão e áudio) e `qwen3-asr` (reconhecimento automático de fala). Modelos GGUF para Qwen3-Omni (variantes de 30B) e Qwen3-ASR (1.7B e 0.6B) estão disponíveis no Hugging Face para uso da comunidade.

multimodal AI audio GGUF Qwen3

mtmd: qwen3 audio support (qwen3-omni and qwen3-asr)

ARTICLEDEV.to AI·1d atrás

MiniMax M3: An Open-Weight Frontier Model You Can Self-Host

O MiniMax M3 é um modelo de fronteira de peso aberto pioneiro, combinando codificação avançada, uma janela de contexto de 1M tokens e multimodalidade nativa. Ele lidera o ranking SWE-Bench Pro de modelos de peso aberto e permite auto-hospedagem, eliminando taxas de API por token e garantindo a residência de dados.

multimodal AI self-hosting Open-weight AI AI benchmarking

RESEARCHarXiv CS.AI·1d atrás

VAMPS: Visual-Assisted Mathematical Problem Solving Benchmark

Apresentamos VAMPS, um novo benchmark para modelos de linguagem grandes multimodais (MLLMs) focado na resolução de problemas matemáticos assistidos visualmente. Ele contém 1.168 pares de perguntas e respostas de múltipla escolha bilíngues, derivados de exames de entrada universitários iranianos, onde a plotagem fornece uma estratégia de solução natural.

multimodal AI LLMs benchmarking mathematics

RESEARCHarXiv CS.CL·1d atrás

MM-BizRAG: Rethinking Multimodal Retrieval-Augmented Generation for General Purpose Enterprise Q&A

MM-BizRAG propõe uma abordagem direta para geração aumentada por recuperação multimodal em Q&A corporativo, lidando explicitamente com informações estruturadas em documentos complexos. Utiliza uma divisão sensível à estrutura do documento e pipelines de ingestão específicos de orientação para processar melhor vários tipos de documentos.

multimodal AI RAG document processing Q&A systems