← heapsort-ai

computer vision

125 items

RESEARCHarXiv CS.LG·il y a 5j

Do Transformers Need Three Projections? Systematic Study of QKV Variants

Cette recherche évalue systématiquement des variantes de la formulation d'attention QKV (Query, Key, Value) dans les Transformers, incluant le partage des projections clé-valeur, query-clé et unique. Des expériences sur des tâches synthétiques, de vision et de modélisation linguistique montrent que ces formulations alternatives sont aussi performantes, voire parfois meilleures, que les Transformers QKV standards, avec un partage Q-K=V réduisant significativement le cache KV en modélisation linguistique.

29
ARTICLEDEV.to AI·il y a 27j

Everything Google announced at its Android Show, from Googlebooks to vibe-coded widgets

L'article analyse techniquement les annonces du Google Android Show, se concentrant sur la nouvelle application Google Livres et les widgets codés par ambiance. Il détaille comment Google Livres utilise un moteur de rendu propriétaire avec ML pour la reconnaissance de texte, tandis que les widgets exploitent le PNL et la vision par ordinateur via TensorFlow Lite pour des expériences personnalisées.

29
ARTICLE↑ trendingReddit r/MachineLearning·16/04/2026

Camera-ready paranoia [D]

Un utilisateur exprime une "paranoïa de version finale" après avoir soumis son article à CVPRW, craignant un rejet dû à d'éventuelles erreurs malgré l'utilisation d'un outil de validation PDF. Il cherche à savoir quand la confirmation de l'inclusion dans les actes sera disponible, son statut étant "En production".

29
ARTICLEDEV.to AI·18/04/2026

Privacy-Preserving Active Learning for sustainable aquaculture monitoring systems with inverse simulation verification

Le contenu présente les défis de l'optimisation de l'aquaculture durable à l'aide de l'IA, notamment la rareté des données, les préoccupations en matière de confidentialité et l'écart entre la simulation et la réalité dans les applications de vision par ordinateur. Il décrit le parcours de l'auteur pour formuler une approche d'apprentissage actif préservant la confidentialité avec vérification par simulation inverse afin de résoudre ces problèmes pratiques.

28
ARTICLEDEV.to AI·04/05/2026

Flagged by a Face: Innocent Shoppers Banned With No Way to Fight Back

L'article traite des défaillances techniques des listes de surveillance de reconnaissance faciale qui entraînent l'interdiction de commerçants innocents sans possibilité de recours. Il souligne l'écart entre la précision d'identification en laboratoire et la responsabilité dans le monde réel, mettant l'accent sur le problème des faux positifs dans les systèmes de recherche 1:N.

28
RESEARCHarXiv CS.LG·il y a 25j

Vision-Based Runtime Monitoring under Varying Specifications using Semantic Latent Representations

Cet article étudie la surveillance certifiée en temps réel de la logique temporelle de signal (ptSTL) à partir d'observations visuelles sous observabilité partielle. Il propose un moniteur réutilisable qui déduit des quantités pertinentes pour la sécurité à partir d'images et fournit des garanties d'échantillon fini, en utilisant des représentations latentes sémantiques pour certifier des formules sans réapprentissage par formule.

28
RESEARCHDEV.to AI·19/04/2026

F-VLM: Open-Vocabulary Object Detection upon Frozen Vision and Language Models

F-VLM propose une nouvelle approche pour la détection d'objets à vocabulaire ouvert, en tirant parti de manière efficace des modèles de vision et de langage pré-entraînés et figés. Cette méthode permet d'identifier un large éventail d'objets sans nécessiter de données d'entraînement spécifiques pour chaque nouvelle catégorie.

28
DOCDEV.to AI·10/05/2026

How I cut speech-bubble retries from 70% to 0% with 200 lines of Pillow code

L'auteur a considérablement réduit les tentatives de génération d'images IA avec du texte illisible dans les bulles de dialogue en transférant la typographie à une étape de post-traitement déterministe. Cela a impliqué que l'IA dessine des bulles vides, puis utilise Pillow et OpenCV pour ajouter du texte lisible, atteignant un taux de réessai nul pour les problèmes de texte.

28
RESEARCHarXiv CS.AI·20/04/2026

GIST: Multimodal Knowledge Extraction and Spatial Grounding via Intelligent Semantic Topology

GIST introduit un pipeline d'extraction de connaissances multimodal pour l'ancrage spatial dans des environnements complexes, transformant les nuages de points mobiles en topologies de navigation sémantiquement annotées. Il distille les scènes en cartes d'occupation 2D, extrait les agencements topologiques et superpose une couche sémantique légère pour aider l'IA incarnée et les humains.

28
RESEARCHarXiv CS.CL·23/04/2026

Hybrid Multi-Phase Page Matching and Multi-Layer Diff Detection for Japanese Building Permit Document Review

Cette recherche présente un algorithme hybride multi-phases pour la comparaison automatisée de documents de permis de construire japonais, un processus manuel fastidieux et sujet aux erreurs. L'algorithme aligne les pages de manière robuste et utilise un moteur de détection de différences multi-couches (texte, tableau, pixel) pour générer des rapports précis, avec un F1 de 0.80 et une précision de 1.00.

28
RESEARCHarXiv CS.AI·08/04/2026

Part-Level 3D Gaussian Vehicle Generation with Joint and Hinge Axis Estimation

Este trabalho propõe um framework generativo para sintetizar veículos 3D Gaussianos animáveis a partir de uma única imagem ou entradas multi-view esparsas. Ele visa superar as limitações dos modelos de veículos rígidos atuais em simulações de direção autônoma, introduzindo um módulo de refinamento para articulação de partes.

28
ARTICLEDEV.to AI·18/04/2026

Discord Leaked 70,000 IDs Answering One Simple Question: Are You 18?

L'exposition de 70 000 pièces d'identité gouvernementales par Discord pour la vérification de l'âge met en lumière un grave cas de sur-collecte architecturale. L'article préconise de passer de la vérification d'identité complète à l'estimation basée sur des seuils, en utilisant des outils d'estimation de l'âge facial pour les questions binaires.

28
ARTICLEDEV.to AI·il y a 17j

YouTube Just Made Every Creator a Deepfake Cop — Here's Why Investigators Should Be Nervous

Les outils de détection de deepfakes étendus de YouTube transforment la vérification des médias synthétiques en une exigence de production standard, déplaçant la charge de la preuve dans les enquêtes numériques. Cette "démocratisation de la détection" implique que les indicateurs de détection de ressemblance des plateformes deviendront des artefacts primaires dans les litiges juridiques et d'assurance.

28