← heapsort-ai

computer vision

125 items

ARTICLE↑ trendingReddit r/MachineLearning·16/04/2026

Can frontier AI models actually read a painting? [R]

Une expérience a testé des modèles d'IA multimodaux de pointe, tels que Gemini 3.1 Pro et GPT-5.4, sur leur capacité à évaluer l'art à partir de l'image seule. L'étude a révélé un écart entre la reconnaissance visuelle et l'engagement envers l'évaluation, suggérant que pour l'IA, « voir » et se fier à ce qui est vu ne sont pas identiques.

47
RESEARCH↑ trendingReddit r/MachineLearning·18/04/2026

We’re proud to open-source LIDARLearn [R] [D] [P]

Il s'agit d'une bibliothèque PyTorch unifiée pour l'apprentissage profond de nuages de points 3D, prenant en charge 56 configurations prêtes à l'emploi et une validation croisée intégrée. LIDARLearn automatise également la génération de PDF LaTeX prêts à être publiés après l'entraînement, ce qui le rend idéal pour les chercheurs en vision par ordinateur 3D et en télédétection.

We’re proud to open-source LIDARLearn [R] [D] [P]
44
RESEARCH↑ trendingReddit r/LocalLLaMA·27/04/2026

Microsoft Presents "TRELLIS.2": An Open-Source, 4b-Parameter, Image-To-3D Model Producing Up To 1536³ PBR Textured Assets, Built On Native 3D VAES With 16× Spatial Compression, Delivering Efficient, Scalable, High-Fidelity Asset Generation.

TRELLIS.2 de Microsoft est un modèle open-source de 4 milliards de paramètres pour la génération 3D haute fidélité à partir d'images, capable de produire des actifs PBR jusqu'à 1536³ en utilisant des VAES 3D natifs et une nouvelle structure O-Voxel. Il propose une solution efficace et évolutive pour la création d'actifs 3D détaillés avec des matériaux PBR complets.

Microsoft Presents "TRELLIS.2": An Open-Source, 4b-Parameter, Image-To-3D Model Producing Up To 1536³ PBR Textured Assets, Built On Native 3D VAES With 16× Spatial Compression, Delivering Efficient, Scalable, High-Fidelity Asset Generation.
42
ARTICLE↑ trendingReddit r/MachineLearning·07/05/2026

Dataset of 150k+ stool images and not sure how to fully use it [D]

Un utilisateur disposant d'un jeu de données de 150 000 images de selles recherche les meilleures pratiques pour entraîner un modèle de vision par ordinateur. Il s'interroge sur son flux de travail actuel de vérification manuelle et cherche des approches plus intelligentes et évolutives pour garantir la qualité du jeu de données et des annotations.

42
RESEARCH↑ trendingReddit r/MachineLearning·07/05/2026

Visual Perceptual to Conceptual First-Order Rule Learning Networks [R]

Ce contenu discute des recherches récentes dans le domaine de la Programmation Logique Inductive (ILP) qui explorent l'induction de prédicats sur des ensembles de données d'images. L'auteur s'interroge sur la capacité de l'ILP à rivaliser avec le Deep Learning/Réseaux Neuronaux en vision par ordinateur, malgré de fortes revendications de performance.

42
RESEARCH↑ trendingReddit r/MachineLearning·il y a 27j

Elastic Attention Cores for Scalable Vision Transformers [R]

Cet article propose les Cœurs d'Attention Élastiques comme un nouveau bloc de construction pour les Vision Transformers évolutifs, répondant au coût élevé de l'auto-attention dense. L'approche utilise une structure d'attention creuse par blocs de type cœur-périphérie et un dropout imbriqué pour des ajustements élastiques du coût d'inférence, atteignant une précision compétitive.

Elastic Attention Cores for Scalable Vision Transformers [R]
42
ARTICLE↑ trendingReddit r/LocalLLaMA·21/04/2026

Gemma 4 Vision

Le budget de vision par défaut de Gemma 4 est souvent trop faible pour une reconnaissance de détails efficace, entraînant de mauvaises performances en OCR. Les utilisateurs peuvent améliorer considérablement sa vision en configurant les paramètres de `llama.cpp` tels que `--image-min-tokens` et `--image-max-tokens` à des valeurs plus élevées, comme 560 et 2240.

41
ARTICLE↑ trendingReddit r/MachineLearning·09/04/2026

Detecting mirrored selfie images: OCR the best way? [D]

O usuário busca um método eficaz para detectar texto invertido em selfies antes de passá-los para modelos de Visão-Linguagem (VLM) ou extratores de embedding facial, que são insensíveis a essa inversão devido ao treinamento com dados aumentados. Sua ideia é usar OCR (EasyOCR) para comparar a pontuação de leitura de texto normal versus espelhado, questionando se esta é a melhor abordagem ou se existe uma solução de modelo menor e mais inteligente.

40
ARTICLE↑ trendingReddit r/MachineLearning·10/04/2026

What image/video training data is hardest to find right now? [R]

Um usuário está desenvolvendo uma plataforma de coleta de fotos crowdsourced, utilizando YOLO/CLIP para rotulagem automática e enriquecimento de metadados. Ele busca sugestões sobre quais tipos de dados de imagem são mais difíceis de encontrar e mais desejados para o treinamento de modelos de IA, citando exemplos como cenas de rua europeias ou prateleiras de supermercado.

40
ARTICLEDEV.to AI·il y a 2j

Iowa Wants Your Driver's License. Nobody Will Say Where It Goes.

La nouvelle loi de l'Iowa sur la vérification de l'âge pose d'importants défis techniques aux développeurs, exigeant une "vérification d'âge raisonnable" sous peine de lourdes amendes. Cela implique le déploiement de solutions complexes comme l'OCR de documents, la comparaison faciale et une logique robuste de conservation des données, transformant les fonctionnalités de sécurité en exigences backend critiques.

39
ARTICLE↑ trendingReddit r/MachineLearning·17/04/2026

Thoughts on vision-captchas [D]

L'auteur explore le potentiel des CAPTCHA basés sur la vision (webcam + détection de gestes) fonctionnant localement dans le navigateur pour la prévention des bots. Il soulève la question de la confiance et des préoccupations de confidentialité concernant l'utilisation de la caméra à cette fin.

39
ARTICLE↑ trendingReddit r/MachineLearning·27/04/2026

What do reviewers actually mean when they say the paper sound more like a technical report? [D]

L'article d'un auteur a été rejeté d'un atelier car il ressemblait davantage à un rapport technique qu'à un article de recherche, bien qu'il ait suivi le format habituel de vision par ordinateur. Il sollicite l'avis de la communauté pour comprendre les erreurs courantes menant à une telle évaluation.

38
RESEARCH↑ trendingReddit r/MachineLearning·05/05/2026

Struggling to reproduce paper results before improving them — stuck below reported accuracy [R]

Un doctorant en IA/vision par ordinateur peine à reproduire la précision rapportée dans un article publié, obtenant constamment environ 73% contre les 77% de la référence du document. Malgré des vérifications minutieuses et des tentatives de contact avec les auteurs, l'étudiant rencontre un écart de reproductibilité qui entrave la poursuite de ses recherches.

36
NEWS↑ trendingReddit r/MachineLearning·20/04/2026

CVPR Broadening Participation Results. [D]

Un utilisateur sur Reddit a signalé n'avoir pas reçu l'e-mail de décision de la bourse de participation élargie CVPR26, bien que les présidents de la conférence aient confirmé que tous les participants avaient été notifiés. L'utilisateur attend toujours sa communication de décision.

32