computer vision

125 items

ARTICLE↑ trendingReddit r/MachineLearning·16/04/2026

Can frontier AI models actually read a painting? [R]

Une expérience a testé des modèles d'IA multimodaux de pointe, tels que Gemini 3.1 Pro et GPT-5.4, sur leur capacité à évaluer l'art à partir de l'image seule. L'étude a révélé un écart entre la reconnaissance visuelle et l'engagement envers l'évaluation, suggérant que pour l'IA, « voir » et se fier à ce qui est vu ne sont pas identiques.

multimodal AI AI capabilities art appraisal Benchmarking

RESEARCH↑ trendingReddit r/MachineLearning·18/04/2026

We’re proud to open-source LIDARLearn [R] [D] [P]

Il s'agit d'une bibliothèque PyTorch unifiée pour l'apprentissage profond de nuages de points 3D, prenant en charge 56 configurations prêtes à l'emploi et une validation croisée intégrée. LIDARLearn automatise également la génération de PDF LaTeX prêts à être publiés après l'entraînement, ce qui le rend idéal pour les chercheurs en vision par ordinateur 3D et en télédétection.

Open Source deep learning computer vision 3d-point-cloud

We’re proud to open-source LIDARLearn [R] [D] [P]

RESEARCH↑ trendingReddit r/LocalLLaMA·27/04/2026

Microsoft Presents "TRELLIS.2": An Open-Source, 4b-Parameter, Image-To-3D Model Producing Up To 1536³ PBR Textured Assets, Built On Native 3D VAES With 16× Spatial Compression, Delivering Efficient, Scalable, High-Fidelity Asset Generation.

TRELLIS.2 de Microsoft est un modèle open-source de 4 milliards de paramètres pour la génération 3D haute fidélité à partir d'images, capable de produire des actifs PBR jusqu'à 1536³ en utilisant des VAES 3D natifs et une nouvelle structure O-Voxel. Il propose une solution efficace et évolutive pour la création d'actifs 3D détaillés avec des matériaux PBR complets.

Open Source Image-to-3D 3D modeling computer vision

Microsoft Presents "TRELLIS.2": An Open-Source, 4b-Parameter, Image-To-3D Model Producing Up To 1536³ PBR Textured Assets, Built On Native 3D VAES With 16× Spatial Compression, Delivering Efficient, Scalable, High-Fidelity Asset Generation.

ARTICLE↑ trendingReddit r/MachineLearning·07/05/2026

Dataset of 150k+ stool images and not sure how to fully use it [D]

Un utilisateur disposant d'un jeu de données de 150 000 images de selles recherche les meilleures pratiques pour entraîner un modèle de vision par ordinateur. Il s'interroge sur son flux de travail actuel de vérification manuelle et cherche des approches plus intelligentes et évolutives pour garantir la qualité du jeu de données et des annotations.

dataset-quality model training machine learning computer vision

RESEARCH↑ trendingReddit r/MachineLearning·07/05/2026

Visual Perceptual to Conceptual First-Order Rule Learning Networks [R]

Ce contenu discute des recherches récentes dans le domaine de la Programmation Logique Inductive (ILP) qui explorent l'induction de prédicats sur des ensembles de données d'images. L'auteur s'interroge sur la capacité de l'ILP à rivaliser avec le Deep Learning/Réseaux Neuronaux en vision par ordinateur, malgré de fortes revendications de performance.

learning machine learning computer vision ILP

RESEARCH↑ trendingReddit r/MachineLearning·il y a 27j

Elastic Attention Cores for Scalable Vision Transformers [R]

Cet article propose les Cœurs d'Attention Élastiques comme un nouveau bloc de construction pour les Vision Transformers évolutifs, répondant au coût élevé de l'auto-attention dense. L'approche utilise une structure d'attention creuse par blocs de type cœur-périphérie et un dropout imbriqué pour des ajustements élastiques du coût d'inférence, atteignant une précision compétitive.

deep learning computer vision attention mechanisms Vision Transformers

Elastic Attention Cores for Scalable Vision Transformers [R]

ARTICLE↑ trendingReddit r/LocalLLaMA·21/04/2026

Gemma 4 Vision

Le budget de vision par défaut de Gemma 4 est souvent trop faible pour une reconnaissance de détails efficace, entraînant de mauvaises performances en OCR. Les utilisateurs peuvent améliorer considérablement sa vision en configurant les paramètres de `llama.cpp` tels que `--image-min-tokens` et `--image-max-tokens` à des valeurs plus élevées, comme 560 et 2240.

Optimization Configuration computer vision Gemma

ARTICLE↑ trendingReddit r/MachineLearning·09/04/2026

Detecting mirrored selfie images: OCR the best way? [D]

O usuário busca um método eficaz para detectar texto invertido em selfies antes de passá-los para modelos de Visão-Linguagem (VLM) ou extratores de embedding facial, que são insensíveis a essa inversão devido ao treinamento com dados aumentados. Sua ideia é usar OCR (EasyOCR) para comparar a pontuação de leitura de texto normal versus espelhado, questionando se esta é a melhor abordagem ou se existe uma solução de modelo menor e mais inteligente.

AI models Image processing Vision-Language Models computer vision

ARTICLE↑ trendingReddit r/MachineLearning·10/04/2026

What image/video training data is hardest to find right now? [R]

Um usuário está desenvolvendo uma plataforma de coleta de fotos crowdsourced, utilizando YOLO/CLIP para rotulagem automática e enriquecimento de metadados. Ele busca sugestões sobre quais tipos de dados de imagem são mais difíceis de encontrar e mais desejados para o treinamento de modelos de IA, citando exemplos como cenas de rua europeias ou prateleiras de supermercado.

computer vision Image Annotation AI development Crowdsourcing

ARTICLEDEV.to AI·il y a 2j

Iowa Wants Your Driver's License. Nobody Will Say Where It Goes.

La nouvelle loi de l'Iowa sur la vérification de l'âge pose d'importants défis techniques aux développeurs, exigeant une "vérification d'âge raisonnable" sous peine de lourdes amendes. Cela implique le déploiement de solutions complexes comme l'OCR de documents, la comparaison faciale et une logique robuste de conservation des données, transformant les fonctionnalités de sécurité en exigences backend critiques.

biometrics privacy security computer vision

ARTICLE↑ trendingReddit r/MachineLearning·17/04/2026

Thoughts on vision-captchas [D]

L'auteur explore le potentiel des CAPTCHA basés sur la vision (webcam + détection de gestes) fonctionnant localement dans le navigateur pour la prévention des bots. Il soulève la question de la confiance et des préoccupations de confidentialité concernant l'utilisation de la caméra à cette fin.

AI applications privacy security computer vision

ARTICLE↑ trendingReddit r/MachineLearning·27/04/2026

What do reviewers actually mean when they say the paper sound more like a technical report? [D]

L'article d'un auteur a été rejeté d'un atelier car il ressemblait davantage à un rapport technique qu'à un article de recherche, bien qu'il ait suivi le format habituel de vision par ordinateur. Il sollicite l'avis de la communauté pour comprendre les erreurs courantes menant à une telle évaluation.

academic publishing computer vision Peer review AI Research

RESEARCH↑ trendingReddit r/MachineLearning·05/05/2026

Struggling to reproduce paper results before improving them — stuck below reported accuracy [R]

Un doctorant en IA/vision par ordinateur peine à reproduire la précision rapportée dans un article publié, obtenant constamment environ 73% contre les 77% de la référence du document. Malgré des vérifications minutieuses et des tentatives de contact avec les auteurs, l'étudiant rencontre un écart de reproductibilité qui entrave la poursuite de ses recherches.

research PhD student machine learning computer vision

ARTICLEDEV.to AI·20/04/2026

Building a Touchless AI Mouse Control in 2 hours with Python 🖱️✨

Cet article présente NUMBA_3, un outil open-source basé sur Python qui permet le contrôle de la souris sans contact par IA, en utilisant une webcam et des gestes de la main. Développé rapidement, il utilise MediaPipe, OpenCV et Numba pour des mouvements fluides du curseur, empaqueté avec PyInstaller.

Open Source human-computer interaction machine learning computer vision

ARTICLEDEV.to AI·il y a 3j

Face Recognition: From Traditional to Deep Learning Methods

Ce contenu explore les méthodes de reconnaissance faciale, des approches traditionnelles aux dernières techniques d'apprentissage profond. Il offre un aperçu complet de l'évolution et des technologies utilisées dans ce domaine de l'intelligence artificielle.

deep learning Face Recognition computer vision AI Methods

NEWS↑ trendingReddit r/MachineLearning·20/04/2026

CVPR Broadening Participation Results. [D]

Un utilisateur sur Reddit a signalé n'avoir pas reçu l'e-mail de décision de la bourse de participation élargie CVPR26, bien que les présidents de la conférence aient confirmé que tous les participants avaient été notifiés. L'utilisateur attend toujours sa communication de décision.

scholarship AI conference computer vision

ARTICLEDEV.to AI·il y a 3j

Mom, Don't Wire That Money: The 6-Word Rule That Stops a $1M Deepfake Cold

Une récente arnaque deepfake où un senior a perdu près d'un million de dollars à cause d'un faux Premier ministre canadien souligne une rupture critique de la confiance biométrique. Cet incident indique que la vérification humaine n'est plus une protection fiable en raison de la sophistication de l'IA générative.

biometrics deepfake security computer vision

RESEARCHDEV.to AI·18/04/2026

Density-aware Chamfer Distance as a Comprehensive Metric for Point CloudCompletion

Ce contenu présente la "Density-aware Chamfer Distance" comme une nouvelle métrique complète pour l'évaluation des tâches de complétion de nuages de points. Elle vise à offrir une évaluation plus robuste et précise des modèles 3D complétés.

3D reconstruction point cloud Metrics computer vision

RESEARCHDEV.to AI·il y a 3j

Aligning where to see and what to tell: image caption with region-basedattention and scene factorization

Ce travail présente une méthode de génération de légendes d'images, utilisant l'attention basée sur les régions et la factorisation de scène pour améliorer la pertinence et la précision descriptive. Il vise à aligner plus efficacement la perception visuelle avec la narration textuelle.

scene understanding deep learning computer vision attention mechanisms

RESEARCHDEV.to AI·19/04/2026

Self-Supervised Learning for Stereo Matching with Self-Improving Ability

Ce travail explore l'apprentissage auto-supervisé pour la mise en correspondance stéréoscopique, en se concentrant sur un système doté d'une capacité d'auto-amélioration. La recherche vise à améliorer la précision et la robustesse des algorithmes de vision par ordinateur dans l'estimation de la profondeur.

Stereo Matching deep learning self-supervised learning computer vision