vision models

4 items

RESEARCH↑ trendingReddit r/LocalLLaMA·27d atrás

sensenova/SenseNova-U1-A3B-MoT · Hugging Face

SenseNova U1 é uma nova série de modelos multimodais nativos que unifica compreensão, raciocínio e geração multimodal numa arquitetura monolítica. Estes modelos inovadores pensam e agem nativamente através da linguagem e visão, marcando uma mudança de paradigma fundamental na IA multimodal.

language models multimodal AI unified architecture SenseNova

sensenova/SenseNova-U1-A3B-MoT · Hugging Face

RESEARCHarXiv CS.LG·23/04/2026

Rethinking Reinforcement Fine-Tuning in LVLM: Convergence, Reward Decomposition, and Generalization

Esta pesquisa introduz o Processo de Decisão de Markov Aumentado por Ferramentas (TA-MDP) para modelar formalmente a tomada de decisão agêntica multimodal, abordando lacunas teóricas no ajuste fino por reforço para Grandes Modelos Visão-Linguagem (LVLMs). O estudo investiga como as recompensas verificáveis afetam a convergência do GRPO e a generalização de LVLMs agênticos para domínios fora de distribuição.

Theoretical AI reinforcement learning vision models large language models

NEWSDEV.to AI·15/04/2026

OpenBlob is evolving: better architecture, modern UI, and real-time transcripts

OpenBlob, um companheiro de IA de desktop local-first, passou por melhorias arquitetônicas significativas, apresentando um design mais limpo, escalável e modular. Ele utiliza modelos de visão para entender o contexto da tela, reage em tempo real e executa ações diretamente no sistema, com o objetivo de se tornar uma camada de tempo de execução hackeável para o seu desktop.

local-first AI AI companion vision models Modular Architecture

ARTICLEDEV.to AI·08/04/2026

Open Vision Agents: Streamlining Vision Model Integration

O projeto Open Vision Agents da Stream oferece uma estrutura robusta para integrar capacidades de visão avançadas em aplicações, suportando diversos modelos de IA e fontes de vídeo. Ele acelera o desenvolvimento e melhora a performance com latência ultrabaixa através da rede de borda da Stream, sendo ideal para a comunidade open-source e desenvolvedores.

Open Source development vision models AI