computer vision

125 items

ARTICLEDEV.to AI·05/05/2026

We Built Sign Language AI for a Language With Almost No Dataset. Here's What That Actually Looks Like.

Cet article détaille le développement d'OmniSign, un traducteur en temps réel pour la langue des signes libanaise (LSL), en abordant les défis de la création d'IA pour une langue avec un ensemble de données presque inexistant. L'auteur souligne que les problèmes les plus difficiles rencontrés n'étaient pas techniques mais humains. L'inspiration est venue en observant les difficultés de communication entre un homme sourd et un barista à Beyrouth.

Dataset Low-Resource Language machine learning Sign Language AI

ARTICLEDEV.to AI·27/04/2026

ICE's $7.5M Face-Scanning Glasses Hit Streets by 2027 — And the Industry's Silence Is Complicity

Le contenu décrit le projet d'ICE de déployer des lunettes de reconnaissance faciale à 7,5 millions de dollars d'ici 2027, marquant un passage de l'analyse statique à l'identification en temps réel par l'IA. Cette initiative soulève des inquiétudes quant au déploiement généralisé de dispositifs biométriques portables et à leurs implications pour la vie privée et la surveillance.

biometrics Edge AI privacy security

ARTICLEDEV.to AI·08/05/2026

Facial Recognition's 81% Error Rate Is About to Blow Up in Court — Are Your Notes Ready?

L'article met en évidence le taux d'erreur de 81% de la reconnaissance faciale dans les déploiements en direct et ses implications légales pour les développeurs. Ils doivent désormais se concentrer sur la documentation des méthodologies pour la défense en justice, signalant la fin de l'ère de l'IA de type 'boîte noire'.

biometrics security computer vision Facial recognition

RESEARCHarXiv CS.CL·05/05/2026

DIAGRAMS: A Review Framework for Reasoning-Level Attribution in Diagram QA

DIAGRAMS est un cadre d'examen pour l'attribution au niveau du raisonnement dans la réponse aux questions sur les diagrammes (Diagram QA). Il découple la logique de l'interface des formats de données spécifiques via un méta-schéma et des adaptateurs, facilitant la sélection et la génération de preuves.

attribution Diagram QA machine learning computer vision

RESEARCHarXiv CS.CL·01/05/2026

Length Value Model: Scalable Value Pretraining for Token-Level Length Modeling

Cet article présente le Length Value Model (LenVM), un nouveau cadre au niveau du token pour modéliser la longueur de génération restante dans les modèles autorégressifs. En formulant la modélisation de la longueur comme un problème d'estimation de valeur, LenVM fournit un signal efficace, sans annotation et évolutif pour les LLM et VLM, améliorant les performances sur les tâches de correspondance exacte de longueur.

deep learning Model Architecture computer vision large language models

RESEARCHarXiv CS.AI·09/05/2026

Intelligent CCTV for Urban Design: AI-Based Analysis of Soft Infrastructure at Intersections

Cette étude présente un cadre analytique basé sur l'IA utilisant l'infrastructure CCTV existante pour évaluer l'impact des interventions urbaines douces sur la vitesse et la sécurité des véhicules aux intersections. Les résultats de Minneapolis montrent que ces interventions ont considérablement réduit la vitesse des véhicules et le trafic de transit.

transportation traffic management urban design computer vision

RESEARCHarXiv CS.CL·24/04/2026

Weighting What Matters: Boosting Sample Efficiency in Medical Report Generation via Token Reweighting

Ce travail introduit une fonction de perte de repondération de jetons pour améliorer l'efficacité des données lors de l'entraînement de modèles vision-langage pour la génération de rapports médicaux. En priorisant les jetons sémantiquement pertinents, la méthode atteint une qualité de rapport comparable en utilisant jusqu'à dix fois moins de données d'entraînement.

Data efficiency machine learning computer vision natural language generation

RESEARCHarXiv CS.LG·il y a 7j

Hoeffding Concept Bottleneck Models with Applications to Overhead Images

Les Modèles de Goulot d'Étranglement de Concept de Hoeffding (HCBM) sont introduits pour fournir des agrégations non linéaires et éparses des scores de concept, améliorant l'explicabilité et la précision des prédictions d'apprentissage profond. Cette méthode utilise la décomposition fonctionnelle de Hoeffding des arbres boostés par gradient pour surmonter les limitations des CBM linéaires existants, qui souffrent d'un grand nombre de concepts et de fuites d'informations potentielles.

deep learning machine learning computer vision Explainable AI

RESEARCHDEV.to AI·25/04/2026

PP-LCNet: A Lightweight CPU Convolutional Neural Network

PP-LCNet présente un réseau neuronal convolutif léger optimisé pour des performances efficaces sur les CPU. Cette architecture vise une haute précision tout en maintenant des exigences computationnelles minimales, idéale pour les environnements à ressources limitées.

deep learning lightweight models computer vision Convolutional Neural Networks

RESEARCHarXiv CS.CL·il y a 27j

ReVision: Scaling Computer-Use Agents via Temporal Visual Redundancy Reduction

ReVision propose une méthode pour optimiser les agents d'utilisation informatique en réduisant la redondance visuelle temporelle dans les trajectoires d'interaction. Il utilise un sélecteur de patchs appris pour supprimer les jetons visuels redondants, réduisant ainsi l'utilisation des jetons d'environ 46% et améliorant l'efficacité des modèles de langage multimodaux sur plusieurs benchmarks.

multimodal AI LLMs efficiency computer vision

ARTICLE↑ trendingReddit r/MachineLearning·27/04/2026

CVPR Workshop Decisions [D]

Un utilisateur demande s'il est normal que les décisions des ateliers CVPR ne soient pas encore publiées, car il doit faire approuver son voyage dans environ cinq semaines. Il ne veut pas déranger les organisateurs mais a besoin des notifications d'acceptation pour organiser son déplacement.

Workshops computer vision academic conferences CVPR

DOCDEV.to AI·il y a 24j

Building a License Plate Recognition Engine in C++ — Part 2: Grayscale Image Preprocessing and Local Contrast Edge Detection

Cet article, la deuxième partie d'une série, détaille l'étape de prétraitement d'image pour la construction d'un moteur de reconnaissance de plaques d'immatriculation (LPR) en C++. Il aborde la génération d'image intégrale, l'analyse du contraste local et l'extraction de carte des contours pour améliorer les régions susceptibles de contenir des caractères de plaques d'immatriculation pour les systèmes en temps réel.

LPR Image processing learning computer vision

RESEARCHDEV.to AI·25/04/2026

CoTracker3: Simpler and Better Point Tracking by Pseudo-Labelling Real Videos

CoTracker3 introduit une méthode plus simple et plus efficace pour le suivi de points dans les vidéos. Il y parvient en utilisant la pseudo-étiquetage sur des données vidéo réelles, ce qui améliore les performances.

point-tracking machine learning computer vision pseudo-labelling

ARTICLEDEV.to AI·13/04/2026

The Cop Who Made 3,000 Deepfakes Exposed a Bigger Problem Than Deepfakes

L'article présente le cas d'un policier ayant créé 3 000 deepfakes comme un avertissement concernant la dette technique dans le droit biométrique. Il soutient que la précipitation législative à définir les "médias synthétiques" brouille la distinction entre IA discriminative et générative, créant des risques pour les développeurs d'outils légitimes de comparaison faciale.

regulation biometrics law enforcement computer vision

RESEARCHDEV.to AI·07/05/2026

Foundational Models Defining a New Era in Vision: A Survey and Outlook

Cet article de recherche explore les modèles fondamentaux qui définissent une nouvelle ère en vision par ordinateur, offrant une analyse complète et des perspectives d'avenir. Il examine l'impact et les tendances émergentes de ces modèles dans le domaine.

Survey Foundational Models machine learning computer vision

CASEDEV.to AI·20/04/2026

Beyond the Crop: Automating "Ghost Mannequin" Effects with Depth-Aware Inpainting

Le contenu décrit comment Rewarx Studio AI automatise l'effet "mannequin fantôme" pour le commerce électronique de vêtements, en surmontant les défis de profondeur et d'occlusion. Leur solution implique un pipeline en trois étapes : masquage sémantique (SAM), estimation de profondeur (Depth Anything) et inpainting contextuel (SDXL).

Image processing computer vision Inpainting e-commerce

RESEARCHDEV.to AI·28/04/2026

You Only Watch Once: A Unified CNN Architecture for Real-Time SpatiotemporalAction Localization

Le titre décrit une architecture CNN unifiée pour la localisation d'actions spatio-temporelles en temps réel. Ce travail vise à améliorer l'efficacité et la précision dans la détection d'activités vidéo.

CNN deep learning computer vision Action Recognition

RESEARCHDEV.to AI·19/04/2026

Camera identification with deep convolutional networks

Cette recherche explore l'utilisation de réseaux convolutifs profonds pour la tâche spécifique d'identification de caméras. Elle examine comment ces modèles d'IA avancés peuvent différencier diverses caméras.

deep learning computer vision AI

ARTICLEDEV.to AI·27/04/2026

gsplat: An Open-Source Library for Gaussian Splatting

gsplat est une bibliothèque open-source dédiée à l'implémentation de la technique de Gaussian Splatting. Elle fournit des outils et des ressources pour les applications de reconstruction et de rendu 3D.

Open Source 3D reconstruction 3D Graphics computer vision

DOCDEV.to AI·28/04/2026

Building a No-Install AI Upscaler: Leveraging Cloud GPUs for Seamless Image Processing

GoHard AI Upscaler est un outil d'amélioration d'image de qualité professionnelle basé sur navigateur, supprimant le besoin d'équipements locaux haut de gamme. Il offre une installation nulle et des performances constantes en utilisant Python, des modèles d'IA optimisés et des GPU cloud de Google Colab.

Image processing deep learning cloud computing machine learning