computer vision

125 items

RESEARCHarXiv CS.LG·il y a 5j

Do Transformers Need Three Projections? Systematic Study of QKV Variants

Cette recherche évalue systématiquement des variantes de la formulation d'attention QKV (Query, Key, Value) dans les Transformers, incluant le partage des projections clé-valeur, query-clé et unique. Des expériences sur des tâches synthétiques, de vision et de modélisation linguistique montrent que ces formulations alternatives sont aussi performantes, voire parfois meilleures, que les Transformers QKV standards, avec un partage Q-K=V réduisant significativement le cache KV en modélisation linguistique.

QKV computer vision attention mechanisms Language modeling

ARTICLEDEV.to AI·il y a 27j

Everything Google announced at its Android Show, from Googlebooks to vibe-coded widgets

L'article analyse techniquement les annonces du Google Android Show, se concentrant sur la nouvelle application Google Livres et les widgets codés par ambiance. Il détaille comment Google Livres utilise un moteur de rendu propriétaire avec ML pour la reconnaissance de texte, tandis que les widgets exploitent le PNL et la vision par ordinateur via TensorFlow Lite pour des expériences personnalisées.

Android machine learning computer vision Natural Language Processing

ARTICLE↑ trendingReddit r/MachineLearning·16/04/2026

Camera-ready paranoia [D]

Un utilisateur exprime une "paranoïa de version finale" après avoir soumis son article à CVPRW, craignant un rejet dû à d'éventuelles erreurs malgré l'utilisation d'un outil de validation PDF. Il cherche à savoir quand la confirmation de l'inclusion dans les actes sera disponible, son statut étant "En production".

academic submission research publishing computer vision AI Research

ARTICLEDEV.to AI·18/04/2026

Privacy-Preserving Active Learning for sustainable aquaculture monitoring systems with inverse simulation verification

Le contenu présente les défis de l'optimisation de l'aquaculture durable à l'aide de l'IA, notamment la rareté des données, les préoccupations en matière de confidentialité et l'écart entre la simulation et la réalité dans les applications de vision par ordinateur. Il décrit le parcours de l'auteur pour formuler une approche d'apprentissage actif préservant la confidentialité avec vérification par simulation inverse afin de résoudre ces problèmes pratiques.

Privacy AI aquaculture computer vision sustainable AI

RESEARCHDEV.to AI·13/04/2026

FairFace: Face Attribute Dataset for Balanced Race, Gender, and Age

FairFace est un ensemble de données d'attributs faciaux conçu pour atténuer les biais dans les modèles d'IA, en offrant une représentation équilibrée de la race, du genre et de l'âge. Il vise à améliorer l'équité et la robustesse des systèmes de vision par ordinateur, garantissant des performances plus justes.

FairFace Dataset Bias Mitigation computer vision

RESEARCHDEV.to AI·08/04/2026

An All-in-One Network for Dehazing and Beyond

Este conteúdo explora uma rede neural unificada projetada para remover neblina de imagens e potencialmente realizar outras tarefas de processamento de imagem. Aborda soluções avançadas em visão computacional e inteligência artificial.

Image processing deep learning computer vision Dehazing

RESEARCHDEV.to AI·02/05/2026

Temporal-Channel Transformer for 3D Lidar-Based Video Object Detection inAutonomous Driving

Cette recherche introduit un Transformeur Temporel-Canal conçu pour la détection d'objets vidéo basée sur le Lidar 3D. Il vise à améliorer les capacités de perception des systèmes de conduite autonome en traitant des données Lidar séquentielles.

object detection computer vision autonomous driving LiDAR

ARTICLEDEV.to AI·04/05/2026

Flagged by a Face: Innocent Shoppers Banned With No Way to Fight Back

L'article traite des défaillances techniques des listes de surveillance de reconnaissance faciale qui entraînent l'interdiction de commerçants innocents sans possibilité de recours. Il souligne l'écart entre la précision d'identification en laboratoire et la responsabilité dans le monde réel, mettant l'accent sur le problème des faux positifs dans les systèmes de recherche 1:N.

ethics privacy security computer vision

RESEARCHDEV.to AI·09/05/2026

Anticipating Visual Representations from Unlabeled Video

Ce contenu explore des méthodes pour anticiper les représentations visuelles à partir de vidéos non étiquetées. La recherche étudie la capacité des modèles à apprendre des caractéristiques visuelles sans supervision explicite, améliorant la compréhension contextuelle dans les séquences vidéo.

computer vision representation learning video-analysis unsupervised learning

RESEARCHarXiv CS.LG·il y a 25j

Vision-Based Runtime Monitoring under Varying Specifications using Semantic Latent Representations

Cet article étudie la surveillance certifiée en temps réel de la logique temporelle de signal (ptSTL) à partir d'observations visuelles sous observabilité partielle. Il propose un moniteur réutilisable qui déduit des quantités pertinentes pour la sécurité à partir d'images et fournit des garanties d'échantillon fini, en utilisant des représentations latentes sémantiques pour certifier des formules sans réapprentissage par formule.

machine learning computer vision runtime monitoring formal methods

RESEARCHDEV.to AI·19/04/2026

F-VLM: Open-Vocabulary Object Detection upon Frozen Vision and Language Models

F-VLM propose une nouvelle approche pour la détection d'objets à vocabulaire ouvert, en tirant parti de manière efficace des modèles de vision et de langage pré-entraînés et figés. Cette méthode permet d'identifier un large éventail d'objets sans nécessiter de données d'entraînement spécifiques pour chaque nouvelle catégorie.

Vision-Language Models deep learning object detection computer vision

DOCDEV.to AI·10/05/2026

How I cut speech-bubble retries from 70% to 0% with 200 lines of Pillow code

L'auteur a considérablement réduit les tentatives de génération d'images IA avec du texte illisible dans les bulles de dialogue en transférant la typographie à une étape de post-traitement déterministe. Cela a impliqué que l'IA dessine des bulles vides, puis utilise Pillow et OpenCV pour ajouter du texte lisible, atteignant un taux de réessai nul pour les problèmes de texte.

Image processing AI generation Stable Diffusion computer vision

RESEARCHarXiv CS.AI·20/04/2026

GIST: Multimodal Knowledge Extraction and Spatial Grounding via Intelligent Semantic Topology

GIST introduit un pipeline d'extraction de connaissances multimodal pour l'ancrage spatial dans des environnements complexes, transformant les nuages de points mobiles en topologies de navigation sémantiquement annotées. Il distille les scènes en cartes d'occupation 2D, extrait les agencements topologiques et superpose une couche sémantique légère pour aider l'IA incarnée et les humains.

multimodal AI navigation spatial AI computer vision

RESEARCHarXiv CS.CL·23/04/2026

Hybrid Multi-Phase Page Matching and Multi-Layer Diff Detection for Japanese Building Permit Document Review

Cette recherche présente un algorithme hybride multi-phases pour la comparaison automatisée de documents de permis de construire japonais, un processus manuel fastidieux et sujet aux erreurs. L'algorithme aligne les pages de manière robuste et utilise un moteur de détection de différences multi-couches (texte, tableau, pixel) pour générer des rapports précis, avec un F1 de 0.80 et une précision de 1.00.

machine learning computer vision document processing automation

RESEARCHDEV.to AI·09/05/2026

DeXpression: Deep Convolutional Neural Network for Expression Recognition

DeXpression est un modèle de réseau neuronal convolutif profond conçu pour la reconnaissance précise des expressions faciales. Il vise à améliorer la capacité des systèmes de vision par ordinateur à interpréter les émotions humaines à partir d'images.

facial expression recognition deep learning computer vision Convolutional Neural Networks

ARTICLEDEV.to AI·23/04/2026

BiRefNet vs rembg vs U2Net: Which Background Removal Model Actually Works in Production?

Cet article compare les performances en production des modèles de suppression d'arrière-plan BiRefNet, rembg et U2Net, soulignant que les différences sont bien plus importantes que ne le suggèrent les benchmarks. Il détaille les cas d'échec brutaux et distincts de chaque modèle appliqué à grande échelle.

AI models Production AI Image processing Benchmarking

RESEARCHarXiv CS.AI·08/04/2026

Part-Level 3D Gaussian Vehicle Generation with Joint and Hinge Axis Estimation

Este trabalho propõe um framework generativo para sintetizar veículos 3D Gaussianos animáveis a partir de uma única imagem ou entradas multi-view esparsas. Ele visa superar as limitações dos modelos de veículos rígidos atuais em simulações de direção autônoma, introduzindo um módulo de refinamento para articulação de partes.

computer vision autonomous driving 3D Generation Vehicle Simulation

ARTICLEDEV.to AI·15/04/2026

We Integrated Netflix's VOID Model Into Our API — Here's What Nobody Tells You About Video Object Removal

L'article décrit l'intégration du modèle VOID de Netflix dans une API pour la suppression d'objets vidéo. Il explique comment VOID surmonte les problèmes des outils d'inpainting traditionnels, qui ne parviennent pas à gérer les artefacts et la physique, en traitant le problème comme 4D.

Netflix VOID computer vision Video Inpainting Video Object Removal

ARTICLEDEV.to AI·18/04/2026

Discord Leaked 70,000 IDs Answering One Simple Question: Are You 18?

L'exposition de 70 000 pièces d'identité gouvernementales par Discord pour la vérification de l'âge met en lumière un grave cas de sur-collecte architecturale. L'article préconise de passer de la vérification d'identité complète à l'estimation basée sur des seuils, en utilisant des outils d'estimation de l'âge facial pour les questions binaires.

biometrics data privacy data breach computer vision

ARTICLEDEV.to AI·il y a 17j

YouTube Just Made Every Creator a Deepfake Cop — Here's Why Investigators Should Be Nervous

Les outils de détection de deepfakes étendus de YouTube transforment la vérification des médias synthétiques en une exigence de production standard, déplaçant la charge de la preuve dans les enquêtes numériques. Cette "démocratisation de la détection" implique que les indicateurs de détection de ressemblance des plateformes deviendront des artefacts primaires dans les litiges juridiques et d'assurance.

deepfake security computer vision fraud detection