computer vision

125 items

ARTICLE↑ trendingReddit r/MachineLearning·4/16/2026

Can frontier AI models actually read a painting? [R]

Ein Experiment testete führende multimodale KI-Modelle, darunter Gemini 3.1 Pro und GPT-5.4, auf ihre Fähigkeit, Kunst allein visuell zu beurteilen. Die Studie enthüllte eine „Erkennungs- versus Verpflichtungs-Lücke“, was darauf hindeutet, dass für KI das „Sehen“ von etwas und das tatsächliche Vertrauen auf das Gesehene nicht dasselbe sind.

multimodal AI AI capabilities art appraisal Benchmarking

RESEARCH↑ trendingReddit r/MachineLearning·4/18/2026

We’re proud to open-source LIDARLearn [R] [D] [P]

LIDARLearn ist eine vereinheitlichte PyTorch-Bibliothek für 3D-Punktwolken-Deep-Learning, die 56 sofort einsatzbereite Konfigurationen und integrierte Kreuzvalidierung unterstützt. Sie automatisiert zudem die Erstellung publikationsreifer LaTeX-PDFs nach dem Training und ist somit ideal für Forscher in 3D-Computer Vision und Fernerkundung.

Open Source deep learning computer vision 3d-point-cloud

We’re proud to open-source LIDARLearn [R] [D] [P]

RESEARCH↑ trendingReddit r/LocalLLaMA·4/27/2026

Microsoft Presents "TRELLIS.2": An Open-Source, 4b-Parameter, Image-To-3D Model Producing Up To 1536³ PBR Textured Assets, Built On Native 3D VAES With 16× Spatial Compression, Delivering Efficient, Scalable, High-Fidelity Asset Generation.

Microsofts TRELLIS.2 ist ein quelloffenes 4B-Parameter-Modell zur hochauflösenden Bild-zu-3D-Generierung, das bis zu 1536³ PBR-Textur-Assets mit nativen 3D VAES und einer neuartigen O-Voxel-Struktur erzeugt. Es bietet eine effiziente, skalierbare Lösung zur Erstellung detaillierter 3D-Assets mit vollständigen PBR-Materialien.

Open Source Image-to-3D 3D modeling computer vision

Microsoft Presents "TRELLIS.2": An Open-Source, 4b-Parameter, Image-To-3D Model Producing Up To 1536³ PBR Textured Assets, Built On Native 3D VAES With 16× Spatial Compression, Delivering Efficient, Scalable, High-Fidelity Asset Generation.

ARTICLE↑ trendingReddit r/MachineLearning·5/7/2026

Dataset of 150k+ stool images and not sure how to fully use it [D]

Ein Benutzer mit einem Datensatz von 150.000 Stuhlbildern sucht nach Best Practices für das Training eines Computer-Vision-Modells. Er hinterfragt seinen aktuellen manuellen Überprüfungsworkflow und sucht nach intelligenteren, skalierbareren Ansätzen zur Sicherstellung der Daten- und Annotationsqualität.

dataset-quality model training machine learning computer vision

RESEARCH↑ trendingReddit r/MachineLearning·5/7/2026

Visual Perceptual to Conceptual First-Order Rule Learning Networks [R]

Dieser Inhalt diskutiert aktuelle Forschung im Bereich der Induktiven Logischen Programmierung (ILP), die die Prädikatinduktion auf Bilddatensätzen untersucht. Der Autor hinterfragt die Fähigkeit von ILP, mit Deep Learning/Neuronalen Netzen in der Computer Vision zu konkurrieren, trotz starker Leistungsansprüche.

learning machine learning computer vision ILP

RESEARCH↑ trendingReddit r/MachineLearning·vor 27T

Elastic Attention Cores for Scalable Vision Transformers [R]

Dieses Paper stellt Elastic Attention Cores als neuen Baustein für skalierbare Vision Transformer vor, um die hohen Kosten dichter Selbst-Aufmerksamkeit zu adressieren. Der Ansatz verwendet eine Kern-Peripherie-Block-Sparse-Aufmerksamkeitsstruktur und Nested Dropout für elastische Anpassungen der Inferenzkosten, wodurch eine hohe Genauigkeit erreicht wird.

deep learning computer vision attention mechanisms Vision Transformers

Elastic Attention Cores for Scalable Vision Transformers [R]

ARTICLE↑ trendingReddit r/LocalLLaMA·4/21/2026

Gemma 4 Vision

Das Standard-Vision-Budget von Gemma 4 ist oft zu niedrig für eine effektive Detailerkennung, was zu schlechter OCR-Leistung führt. Benutzer können die Sichtfähigkeiten erheblich verbessern, indem sie `llama.cpp`-Parameter wie `--image-min-tokens` und `--image-max-tokens` auf höhere Werte, z.B. 560 und 2240, konfigurieren.

Optimization Configuration computer vision Gemma

ARTICLE↑ trendingReddit r/MachineLearning·4/9/2026

Detecting mirrored selfie images: OCR the best way? [D]

O usuário busca um método eficaz para detectar texto invertido em selfies antes de passá-los para modelos de Visão-Linguagem (VLM) ou extratores de embedding facial, que são insensíveis a essa inversão devido ao treinamento com dados aumentados. Sua ideia é usar OCR (EasyOCR) para comparar a pontuação de leitura de texto normal versus espelhado, questionando se esta é a melhor abordagem ou se existe uma solução de modelo menor e mais inteligente.

AI models Image processing Vision-Language Models computer vision

ARTICLE↑ trendingReddit r/MachineLearning·4/10/2026

What image/video training data is hardest to find right now? [R]

Um usuário está desenvolvendo uma plataforma de coleta de fotos crowdsourced, utilizando YOLO/CLIP para rotulagem automática e enriquecimento de metadados. Ele busca sugestões sobre quais tipos de dados de imagem são mais difíceis de encontrar e mais desejados para o treinamento de modelos de IA, citando exemplos como cenas de rua europeias ou prateleiras de supermercado.

computer vision Image Annotation AI development Crowdsourcing

ARTICLEDEV.to AI·vor 2T

Iowa Wants Your Driver's License. Nobody Will Say Where It Goes.

Iowas neues Altersüberprüfungsgesetz stellt Entwickler vor erhebliche technische Hürden, da es eine "angemessene Altersüberprüfung" unter Androhung hoher Geldstrafen vorschreibt. Dies erfordert den Einsatz komplexer Lösungen wie Dokumenten-OCR, Gesichtserkennung und robuste Datenaufbewahrungslogik, wodurch Sicherheitsfunktionen zu kritischen Backend-Anforderungen werden.

biometrics privacy security computer vision

ARTICLE↑ trendingReddit r/MachineLearning·4/17/2026

Thoughts on vision-captchas [D]

Der Autor untersucht das Potenzial von bildbasierten CAPTCHAs (Webcam + Gestenerkennung), die lokal im Browser zur Bot-Abwehr laufen. Dabei werden Vertrauens- und Datenschutzbedenken hinsichtlich der Kameranutzung für diesen Zweck aufgeworfen.

AI applications privacy security computer vision

ARTICLE↑ trendingReddit r/MachineLearning·4/27/2026

What do reviewers actually mean when they say the paper sound more like a technical report? [D]

Der Artikel eines Autors wurde von einem Workshop abgelehnt, weil er eher wie ein technischer Bericht als ein Forschungspapier klang, obwohl er das übliche Computer-Vision-Format befolgte. Er bittet die Gemeinschaft um ihre Meinung, um häufige Fehler zu verstehen, die zu einer solchen Bewertung führen.

academic publishing computer vision Peer review AI Research

RESEARCH↑ trendingReddit r/MachineLearning·5/5/2026

Struggling to reproduce paper results before improving them — stuck below reported accuracy [R]

Ein Doktorand in KI/Computer Vision hat Schwierigkeiten, die in einem veröffentlichten Papier berichtete Genauigkeit zu reproduzieren, und erreicht konsequent etwa 73% gegenüber der Baselinie des Papiers von ~77%. Trotz sorgfältiger Überprüfungen und Kontaktversuchen mit den Autoren stößt der Student auf eine Reproduktionslücke, die weitere Forschungsarbeiten behindert.

research PhD student machine learning computer vision

ARTICLEDEV.to AI·4/20/2026

Building a Touchless AI Mouse Control in 2 hours with Python 🖱️✨

Dieser Artikel stellt NUMBA_3 vor, ein Python-basiertes Open-Source-Tool, das berührungslose KI-Maussteuerung mittels Webcam und Handgesten ermöglicht. Schnell entwickelt, nutzt es MediaPipe, OpenCV und Numba für flüssige Cursorbewegungen, verpackt als portable EXE mit PyInstaller.

Open Source human-computer interaction machine learning computer vision

ARTICLEDEV.to AI·vor 3T

Face Recognition: From Traditional to Deep Learning Methods

Dieser Inhalt untersucht Gesichtserkennungsmethoden, von traditionellen Ansätzen bis hin zu den neuesten Deep-Learning-Techniken. Er bietet einen umfassenden Überblick über die Entwicklung und die in diesem Bereich der künstlichen Intelligenz eingesetzten Technologien.

deep learning Face Recognition computer vision AI Methods

NEWS↑ trendingReddit r/MachineLearning·4/20/2026

CVPR Broadening Participation Results. [D]

Ein Nutzer auf Reddit berichtete, die E-Mail zur Entscheidung über das CVPR26 Broadening Participation Scholarship nicht erhalten zu haben, obwohl die Konferenzvorsitzenden bestätigten, dass alle Teilnehmer benachrichtigt wurden. Der Nutzer wartet noch auf die Mitteilung seiner Entscheidung.

scholarship AI conference computer vision

ARTICLEDEV.to AI·vor 3T

Mom, Don't Wire That Money: The 6-Word Rule That Stops a $1M Deepfake Cold

Ein kürzlicher Deepfake-Betrug, bei dem ein Senior fast 1 Million Dollar an einen synthetischen kanadischen Premierminister verlor, offenbart einen kritischen Vertrauensverlust in die Biometrie. Dieser Vorfall zeigt, dass die menschliche Überprüfung aufgrund der Raffinesse generativer KI kein zuverlässiger Schutz mehr ist.

biometrics deepfake security computer vision

RESEARCHDEV.to AI·4/18/2026

Density-aware Chamfer Distance as a Comprehensive Metric for Point CloudCompletion

Dieser Inhalt stellt die „Density-aware Chamfer Distance“ als neue umfassende Metrik zur Bewertung von Punktwolken-Vervollständigungsaufgaben vor. Ziel ist es, eine robustere und genauere Beurteilung von vervollständigten 3D-Modellen zu ermöglichen.

3D reconstruction point cloud Metrics computer vision

RESEARCHDEV.to AI·vor 3T

Aligning where to see and what to tell: image caption with region-basedattention and scene factorization

Diese Arbeit stellt eine Methode zur Bildunterschriftengenerierung vor, die regionenbasierte Aufmerksamkeit und Szenenfaktorisierung nutzt, um die beschreibende Relevanz und Genauigkeit zu verbessern. Ziel ist es, die visuelle Wahrnehmung effektiver mit der textlichen Erzählung abzugleichen.

scene understanding deep learning computer vision attention mechanisms

RESEARCHDEV.to AI·4/19/2026

Self-Supervised Learning for Stereo Matching with Self-Improving Ability

Diese Arbeit untersucht selbstüberwachtes Lernen für Stereo-Matching, wobei der Fokus auf einem System mit selbstverbessernder Fähigkeit liegt. Die Forschung zielt darauf ab, die Genauigkeit und Robustheit von Computer-Vision-Algorithmen bei der Tiefenschätzung zu verbessern.

Stereo Matching deep learning self-supervised learning computer vision