← heapsort-ai

computer vision

125 items

ARTICLEDEV.to AI·05/05/2026

We Built Sign Language AI for a Language With Almost No Dataset. Here's What That Actually Looks Like.

Cet article détaille le développement d'OmniSign, un traducteur en temps réel pour la langue des signes libanaise (LSL), en abordant les défis de la création d'IA pour une langue avec un ensemble de données presque inexistant. L'auteur souligne que les problèmes les plus difficiles rencontrés n'étaient pas techniques mais humains. L'inspiration est venue en observant les difficultés de communication entre un homme sourd et un barista à Beyrouth.

27
ARTICLEDEV.to AI·27/04/2026

ICE's $7.5M Face-Scanning Glasses Hit Streets by 2027 — And the Industry's Silence Is Complicity

Le contenu décrit le projet d'ICE de déployer des lunettes de reconnaissance faciale à 7,5 millions de dollars d'ici 2027, marquant un passage de l'analyse statique à l'identification en temps réel par l'IA. Cette initiative soulève des inquiétudes quant au déploiement généralisé de dispositifs biométriques portables et à leurs implications pour la vie privée et la surveillance.

27
ARTICLEDEV.to AI·08/05/2026

Facial Recognition's 81% Error Rate Is About to Blow Up in Court — Are Your Notes Ready?

L'article met en évidence le taux d'erreur de 81% de la reconnaissance faciale dans les déploiements en direct et ses implications légales pour les développeurs. Ils doivent désormais se concentrer sur la documentation des méthodologies pour la défense en justice, signalant la fin de l'ère de l'IA de type 'boîte noire'.

27
RESEARCHarXiv CS.CL·01/05/2026

Length Value Model: Scalable Value Pretraining for Token-Level Length Modeling

Cet article présente le Length Value Model (LenVM), un nouveau cadre au niveau du token pour modéliser la longueur de génération restante dans les modèles autorégressifs. En formulant la modélisation de la longueur comme un problème d'estimation de valeur, LenVM fournit un signal efficace, sans annotation et évolutif pour les LLM et VLM, améliorant les performances sur les tâches de correspondance exacte de longueur.

27
RESEARCHarXiv CS.AI·09/05/2026

Intelligent CCTV for Urban Design: AI-Based Analysis of Soft Infrastructure at Intersections

Cette étude présente un cadre analytique basé sur l'IA utilisant l'infrastructure CCTV existante pour évaluer l'impact des interventions urbaines douces sur la vitesse et la sécurité des véhicules aux intersections. Les résultats de Minneapolis montrent que ces interventions ont considérablement réduit la vitesse des véhicules et le trafic de transit.

27
RESEARCHarXiv CS.CL·24/04/2026

Weighting What Matters: Boosting Sample Efficiency in Medical Report Generation via Token Reweighting

Ce travail introduit une fonction de perte de repondération de jetons pour améliorer l'efficacité des données lors de l'entraînement de modèles vision-langage pour la génération de rapports médicaux. En priorisant les jetons sémantiquement pertinents, la méthode atteint une qualité de rapport comparable en utilisant jusqu'à dix fois moins de données d'entraînement.

27
RESEARCHarXiv CS.LG·il y a 7j

Hoeffding Concept Bottleneck Models with Applications to Overhead Images

Les Modèles de Goulot d'Étranglement de Concept de Hoeffding (HCBM) sont introduits pour fournir des agrégations non linéaires et éparses des scores de concept, améliorant l'explicabilité et la précision des prédictions d'apprentissage profond. Cette méthode utilise la décomposition fonctionnelle de Hoeffding des arbres boostés par gradient pour surmonter les limitations des CBM linéaires existants, qui souffrent d'un grand nombre de concepts et de fuites d'informations potentielles.

27
RESEARCHarXiv CS.CL·il y a 27j

ReVision: Scaling Computer-Use Agents via Temporal Visual Redundancy Reduction

ReVision propose une méthode pour optimiser les agents d'utilisation informatique en réduisant la redondance visuelle temporelle dans les trajectoires d'interaction. Il utilise un sélecteur de patchs appris pour supprimer les jetons visuels redondants, réduisant ainsi l'utilisation des jetons d'environ 46% et améliorant l'efficacité des modèles de langage multimodaux sur plusieurs benchmarks.

27
ARTICLE↑ trendingReddit r/MachineLearning·27/04/2026

CVPR Workshop Decisions [D]

Un utilisateur demande s'il est normal que les décisions des ateliers CVPR ne soient pas encore publiées, car il doit faire approuver son voyage dans environ cinq semaines. Il ne veut pas déranger les organisateurs mais a besoin des notifications d'acceptation pour organiser son déplacement.

27
DOCDEV.to AI·il y a 24j

Building a License Plate Recognition Engine in C++ — Part 2: Grayscale Image Preprocessing and Local Contrast Edge Detection

Cet article, la deuxième partie d'une série, détaille l'étape de prétraitement d'image pour la construction d'un moteur de reconnaissance de plaques d'immatriculation (LPR) en C++. Il aborde la génération d'image intégrale, l'analyse du contraste local et l'extraction de carte des contours pour améliorer les régions susceptibles de contenir des caractères de plaques d'immatriculation pour les systèmes en temps réel.

27
ARTICLEDEV.to AI·13/04/2026

The Cop Who Made 3,000 Deepfakes Exposed a Bigger Problem Than Deepfakes

L'article présente le cas d'un policier ayant créé 3 000 deepfakes comme un avertissement concernant la dette technique dans le droit biométrique. Il soutient que la précipitation législative à définir les "médias synthétiques" brouille la distinction entre IA discriminative et générative, créant des risques pour les développeurs d'outils légitimes de comparaison faciale.

27