← heapsort-ai

vision models

4 items

RESEARCH↑ trendingReddit r/LocalLLaMA·il y a 27j

sensenova/SenseNova-U1-A3B-MoT · Hugging Face

SenseNova U1 est une nouvelle série de modèles multimodaux natifs qui unifie la compréhension, le raisonnement et la génération multimodale au sein d'une architecture monolithique. Ces modèles innovants pensent et agissent nativement à travers le langage et la vision, marquant un changement de paradigme fondamental dans l'IA multimodale.

sensenova/SenseNova-U1-A3B-MoT · Hugging Face
42
RESEARCHarXiv CS.LG·23/04/2026

Rethinking Reinforcement Fine-Tuning in LVLM: Convergence, Reward Decomposition, and Generalization

Cette recherche introduit le Processus de Décision de Markov Augmenté par Outils (TA-MDP) pour modéliser formellement la prise de décision agentique multimodale, comblant les lacunes théoriques dans le réglage fin par renforcement pour les Grands Modèles Vision-Langage (LVLM). Elle examine comment les récompenses vérifiables composites affectent la convergence de GRPO et pourquoi l'entraînement sur de petits ensembles de données se généralise à des domaines hors distribution pour les LVLM agentiques.

28
NEWSDEV.to AI·15/04/2026

OpenBlob is evolving: better architecture, modern UI, and real-time transcripts

OpenBlob, un compagnon IA de bureau local-first, a subi d'importantes améliorations architecturales, présentant une conception plus propre, évolutive et modulaire. Il utilise des modèles de vision pour comprendre le contexte de l'écran, réagit en temps réel et exécute des actions directement sur votre système, visant à devenir une couche d'exécution piratable pour votre bureau.

26
ARTICLEDEV.to AI·08/04/2026

Open Vision Agents: Streamlining Vision Model Integration

O projeto Open Vision Agents da Stream oferece uma estrutura robusta para integrar capacidades de visão avançadas em aplicações, suportando diversos modelos de IA e fontes de vídeo. Ele acelera o desenvolvimento e melhora a performance com latência ultrabaixa através da rede de borda da Stream, sendo ideal para a comunidade open-source e desenvolvedores.

24