← heapsort-ai

computer vision

125 items

ARTICLE↑ trendingReddit r/MachineLearning·4/16/2026

Can frontier AI models actually read a painting? [R]

Ein Experiment testete führende multimodale KI-Modelle, darunter Gemini 3.1 Pro und GPT-5.4, auf ihre Fähigkeit, Kunst allein visuell zu beurteilen. Die Studie enthüllte eine „Erkennungs- versus Verpflichtungs-Lücke“, was darauf hindeutet, dass für KI das „Sehen“ von etwas und das tatsächliche Vertrauen auf das Gesehene nicht dasselbe sind.

47
RESEARCH↑ trendingReddit r/MachineLearning·4/18/2026

We’re proud to open-source LIDARLearn [R] [D] [P]

LIDARLearn ist eine vereinheitlichte PyTorch-Bibliothek für 3D-Punktwolken-Deep-Learning, die 56 sofort einsatzbereite Konfigurationen und integrierte Kreuzvalidierung unterstützt. Sie automatisiert zudem die Erstellung publikationsreifer LaTeX-PDFs nach dem Training und ist somit ideal für Forscher in 3D-Computer Vision und Fernerkundung.

We’re proud to open-source LIDARLearn [R] [D] [P]
44
RESEARCH↑ trendingReddit r/LocalLLaMA·4/27/2026

Microsoft Presents "TRELLIS.2": An Open-Source, 4b-Parameter, Image-To-3D Model Producing Up To 1536³ PBR Textured Assets, Built On Native 3D VAES With 16× Spatial Compression, Delivering Efficient, Scalable, High-Fidelity Asset Generation.

Microsofts TRELLIS.2 ist ein quelloffenes 4B-Parameter-Modell zur hochauflösenden Bild-zu-3D-Generierung, das bis zu 1536³ PBR-Textur-Assets mit nativen 3D VAES und einer neuartigen O-Voxel-Struktur erzeugt. Es bietet eine effiziente, skalierbare Lösung zur Erstellung detaillierter 3D-Assets mit vollständigen PBR-Materialien.

Microsoft Presents "TRELLIS.2": An Open-Source, 4b-Parameter, Image-To-3D Model Producing Up To 1536³ PBR Textured Assets, Built On Native 3D VAES With 16× Spatial Compression, Delivering Efficient, Scalable, High-Fidelity Asset Generation.
42
RESEARCH↑ trendingReddit r/MachineLearning·vor 27T

Elastic Attention Cores for Scalable Vision Transformers [R]

Dieses Paper stellt Elastic Attention Cores als neuen Baustein für skalierbare Vision Transformer vor, um die hohen Kosten dichter Selbst-Aufmerksamkeit zu adressieren. Der Ansatz verwendet eine Kern-Peripherie-Block-Sparse-Aufmerksamkeitsstruktur und Nested Dropout für elastische Anpassungen der Inferenzkosten, wodurch eine hohe Genauigkeit erreicht wird.

Elastic Attention Cores for Scalable Vision Transformers [R]
42
ARTICLE↑ trendingReddit r/LocalLLaMA·4/21/2026

Gemma 4 Vision

Das Standard-Vision-Budget von Gemma 4 ist oft zu niedrig für eine effektive Detailerkennung, was zu schlechter OCR-Leistung führt. Benutzer können die Sichtfähigkeiten erheblich verbessern, indem sie `llama.cpp`-Parameter wie `--image-min-tokens` und `--image-max-tokens` auf höhere Werte, z.B. 560 und 2240, konfigurieren.

41
ARTICLE↑ trendingReddit r/MachineLearning·4/9/2026

Detecting mirrored selfie images: OCR the best way? [D]

O usuário busca um método eficaz para detectar texto invertido em selfies antes de passá-los para modelos de Visão-Linguagem (VLM) ou extratores de embedding facial, que são insensíveis a essa inversão devido ao treinamento com dados aumentados. Sua ideia é usar OCR (EasyOCR) para comparar a pontuação de leitura de texto normal versus espelhado, questionando se esta é a melhor abordagem ou se existe uma solução de modelo menor e mais inteligente.

40
ARTICLE↑ trendingReddit r/MachineLearning·4/10/2026

What image/video training data is hardest to find right now? [R]

Um usuário está desenvolvendo uma plataforma de coleta de fotos crowdsourced, utilizando YOLO/CLIP para rotulagem automática e enriquecimento de metadados. Ele busca sugestões sobre quais tipos de dados de imagem são mais difíceis de encontrar e mais desejados para o treinamento de modelos de IA, citando exemplos como cenas de rua europeias ou prateleiras de supermercado.

40
ARTICLEDEV.to AI·vor 2T

Iowa Wants Your Driver's License. Nobody Will Say Where It Goes.

Iowas neues Altersüberprüfungsgesetz stellt Entwickler vor erhebliche technische Hürden, da es eine "angemessene Altersüberprüfung" unter Androhung hoher Geldstrafen vorschreibt. Dies erfordert den Einsatz komplexer Lösungen wie Dokumenten-OCR, Gesichtserkennung und robuste Datenaufbewahrungslogik, wodurch Sicherheitsfunktionen zu kritischen Backend-Anforderungen werden.

39
ARTICLE↑ trendingReddit r/MachineLearning·4/27/2026

What do reviewers actually mean when they say the paper sound more like a technical report? [D]

Der Artikel eines Autors wurde von einem Workshop abgelehnt, weil er eher wie ein technischer Bericht als ein Forschungspapier klang, obwohl er das übliche Computer-Vision-Format befolgte. Er bittet die Gemeinschaft um ihre Meinung, um häufige Fehler zu verstehen, die zu einer solchen Bewertung führen.

38
RESEARCH↑ trendingReddit r/MachineLearning·5/5/2026

Struggling to reproduce paper results before improving them — stuck below reported accuracy [R]

Ein Doktorand in KI/Computer Vision hat Schwierigkeiten, die in einem veröffentlichten Papier berichtete Genauigkeit zu reproduzieren, und erreicht konsequent etwa 73% gegenüber der Baselinie des Papiers von ~77%. Trotz sorgfältiger Überprüfungen und Kontaktversuchen mit den Autoren stößt der Student auf eine Reproduktionslücke, die weitere Forschungsarbeiten behindert.

36
NEWS↑ trendingReddit r/MachineLearning·4/20/2026

CVPR Broadening Participation Results. [D]

Ein Nutzer auf Reddit berichtete, die E-Mail zur Entscheidung über das CVPR26 Broadening Participation Scholarship nicht erhalten zu haben, obwohl die Konferenzvorsitzenden bestätigten, dass alle Teilnehmer benachrichtigt wurden. Der Nutzer wartet noch auf die Mitteilung seiner Entscheidung.

32