computer vision

125 items

RESEARCHDEV.to AI·24/04/2026

Two-Stream 3D Convolutional Neural Network for Skeleton-Based Action Recognition

Ce contenu décrit un réseau neuronal convolutif 3D à deux flux pour la reconnaissance d'actions basée sur les squelettes.

neural networks deep learning computer vision Action Recognition

RESEARCHDEV.to AI·10/05/2026

GQA: A New Dataset for Real-World Visual Reasoning and Compositional QuestionAnswering

GQA est un nouveau jeu de données conçu pour défier et évaluer les systèmes d'IA en matière de raisonnement visuel et de réponse à des questions compositionnelles. Il vise à faire progresser la compréhension des scènes et l'interaction multimodale dans des scénarios réels.

Question Answering visual reasoning computer vision datasets

RESEARCHDEV.to AI·il y a 26j

Recent Advances in Object Detection in the Age of Deep Convolutional NeuralNetworks

Ce contenu traite des avancées récentes en détection d'objets, en se concentrant spécifiquement sur le rôle et l'impact des réseaux neuronaux convolutifs profonds. Il explore probablement de nouvelles techniques, modèles et défis dans ce domaine en évolution de l'intelligence artificielle.

deep learning object detection computer vision Convolutional Neural Networks

ARTICLEDEV.to AI·24/04/2026

Bringing it to Life: The Real-Time Inference Engine (Part 3)

Cet article, partie 3 d'une série, détaille le moteur d'inférence en temps réel pour un projet ASL-vers-voix, abordant le défi du traitement des flux de webcam infinis. Il explique l'architecture de Fenêtre Coulissante pour décoder les points clés du corps en glosses de langue des signes et utiliser des LLMs pour générer de l'anglais parlé.

sign-language machine learning computer vision NLP

ARTICLEDEV.to AI·26/04/2026

1 in 25 Kids Are Now Deepfake Victims — and Your Investigators Aren't Ready

La prévalence croissante de l'abus d'images deepfake, touchant 1 enfant sur 25, a fondamentalement modifié les flux de travail de vision par ordinateur et de biométrie, rendant les images numériques non fiables comme "source de vérité". Cette crise exige un passage de la reconnaissance faciale large à la comparaison faciale de haute précision dans les technologies d'enquête, soulignant un besoin critique d'outils d'analyse forensique abordables.

deepfake security computer vision Facial recognition

ARTICLEDEV.to AI·il y a 16j

From Screenshot to Solution: AI-Powered Visual Analysis for UI/UX Issues

Cet article présente une approche d'analyse visuelle pilotée par l'IA pour résoudre les problèmes de support UI/UX. En traitant les captures d'écran comme des données lisibles par machine, les modèles d'IA peuvent automatiser les flux de travail de triage, d'analyse et de réponse, réduisant considérablement l'effort manuel et améliorant le temps de résolution.

computer vision UI/UX customer support AI

ARTICLEDEV.to AI·05/05/2026

Apps That See: Bringing Vision AI to Your Projects

Cet article détaille une conférence intitulée "Apps That See", présentant six démonstrations en direct sur la création d'applications qui comprennent les images et les vidéos. Les projets sont open source et montrent comment les modèles d'IA visuelle, comme Qwen et Reka Edge, peuvent désormais fonctionner localement sur du matériel courant.

Open Source computer vision Visual AI Local AI

DOCDEV.to AI·il y a 18j

Stop retraining YOLO: a developer’s guide to zero-shot object detection with generative VLMs

Ce guide aborde le réentraînement répétitif des modèles de détection d'objets comme YOLO dans les environnements industriels en proposant des Modèles de Vision-Langage Génératifs (VLMs) pour la détection en zéro-shot. Il souligne comment les VLMs transforment la détection en requêtes sémantiques, évitant la collecte continue de données et le réentraînement, mais note de nouveaux défis architecturaux pour les équipes d'ingénierie industrielle.

VLM object detection computer vision Generative AI

RESEARCHDEV.to AI·il y a 14j

Can SAM Segment Anything? When SAM Meets Camouflaged Object Detection

Ce contenu explore l'efficacité du Segment Anything Model (SAM) lorsqu'il est appliqué à la tâche difficile de détection d'objets camouflés. Il examine si SAM, connu pour ses capacités générales de segmentation, peut identifier avec précision les objets qui se fondent dans leur environnement.

SAM object detection Segmentation computer vision

DOCDEV.to AI·01/05/2026

From Chaos to Claim: Automating Your Digital Evidence File with AI

Ce contenu explique comment les experts en sinistres indépendants peuvent utiliser l'IA pour automatiser l'organisation des fichiers de preuves numériques, en tirant parti d'outils comme la vision par ordinateur et l'OCR. Il détaille un processus en trois phases pour créer un flux de travail augmenté par l'IA au-dessus du stockage cloud pour gérer efficacement photos, factures et e-mails.

document management workflow automation computer vision AI tools

RESEARCHDEV.to AI·09/05/2026

Shape of Motion: 4D Reconstruction from a Single Video

Ce travail décrit une méthode innovante pour la reconstruction 4D à partir d'une seule vidéo. La recherche se concentre sur la récupération de la forme et du mouvement d'objets ou de scènes complexes.

4D Reconstruction machine learning computer vision video-analysis

ARTICLEDEV.to AI·il y a 17j

Building EIDOLON OS — A Local-First AI Cognitive Operating System

L'auteur a développé EIDOLON OS, un système d'exploitation cognitif d'IA expérimental et local. Il intègre la mémoire, la vision, la récupération sémantique et les actions d'agent pour transformer l'activité du bureau en mémoire structurée et consultable.

AI Operating System computer vision cognitive AI Local AI

DOCDEV.to AI·27/04/2026

BlenderProc

BlenderProc est un moteur de rendu procédural basé sur Blender, utilisé pour générer des ensembles de données synthétiques pour la recherche en vision par ordinateur. Il facilite la création de données diverses et réalistes pour l'entraînement de modèles d'IA.

synthetic data computer vision 3d-rendering AI tools

ARTICLEDEV.to AI·il y a 11j

How AI Auto-Catalogs Claims Evidence for Solo Public Adjusters

Cet article explique comment l'intelligence artificielle peut automatiser le catalogage des preuves de sinistres pour les experts en sinistres publics indépendants, en utilisant un pipeline de triage, l'OCR et la vision par ordinateur. Cette approche transforme les fichiers numériques chaotiques en coffres de preuves consultables et vérifiables, faisant gagner un temps précieux aux experts.

document management claims processing AI automation computer vision

ARTICLEDEV.to AI·il y a 28j

Fine-tuning CLIP on a Niche Domain: How I Got +26pp Accuracy on Architectural Styles and What You Can Apply to Your Own Domain

Cet article détaille le processus de réglage fin d'OpenCLIP ViT-B/32 pour les styles architecturaux, obtenant une augmentation de 26 points de pourcentage de précision. L'auteur se concentre sur les décisions cruciales prises avant et après la boucle d'entraînement qui ont été responsables de ce résultat significatif, plutôt que sur l'optimisation de la boucle d'entraînement elle-même.

CLIP Vision-Language Models machine learning computer vision

DOCDEV.to AI·17/04/2026

AI Room Decor Tools 2026

D'ici 2026, les outils d'IA révolutionneront le design d'intérieur, offrant précision, réduction des coûts et de nouvelles capacités comme la simulation en temps réel. Essentiels pour les designers et les propriétaires, ces outils s'appuient sur l'IA générative, la vision par ordinateur et le raisonnement spatial.

computer vision AI tools home decor interior design

ARTICLEThe Verge AI·24/04/2026

How Project Maven taught the military to love AI

Le Project Maven, un système d'IA appliquant la vision par ordinateur aux images de drones, a drastiquement accéléré les processus de ciblage militaire, comme l'exemplifie un récent assaut contre l'Iran. Son développement, enquêté dans un nouveau livre de Katrina Manson, a notamment suscité des protestations d'employés chez Google, son premier contractant.

AI in military Ethics of AI computer vision

ARTICLEDEV.to AI·16/04/2026

The Face Matched. The Voice Matched. The Person Never Existed.

La fraude d'identité par deepfake est désormais opérationnelle toutes les cinq minutes, posant un défi critique aux développeurs de systèmes de vision par ordinateur et biométriques. Cela nécessite de dépasser la simple correspondance faciale pour prouver la vivacité et l'authenticité de la source, car les modèles de confiance à point unique traditionnels échouent et causent des pertes financières importantes.

biometrics deepfake security computer vision

ARTICLEDEV.to AI·13/04/2026

A Cop Made 3,000 Deepfake Porn Images. A Bandwidth Spike Caught Him — No Investigator Did.

L'article détaille comment un caporal de police a généré 3 000 images deepfake pornographiques, étant découvert par une surtension de bande passante réseau et non par des outils médico-légaux numériques spécialisés. Cela met en lumière une défaillance critique des capacités actuelles de la criminalistique numérique et de la vision par ordinateur à détecter proactivement les médias synthétiques.

digital forensics law enforcement deepfake computer vision

ARTICLEDEV.to AI·il y a 9j

Deepfakes Just Broke Evidence: $893M Gone, 100K Fake Images, First Arrests Land

Les deepfakes remettent profondément en question la vérification forensique et créent un "dividende du menteur" où les preuves authentiques sont rejetées. Cela nécessite un changement dans les outils de vision par ordinateur pour fournir un échafaudage mathématique permettant aux enquêteurs de défendre leurs conclusions devant les tribunaux, au-delà de simples scores de correspondance.

security computer vision forensics fraud