computer vision

125 items

ARTICLEDEV.to AI·5/5/2026

We Built Sign Language AI for a Language With Almost No Dataset. Here's What That Actually Looks Like.

Dieser Artikel beschreibt die Entwicklung von OmniSign, einem Echtzeit-Übersetzer für die libanesische Gebärdensprache (LSL), und befasst sich mit den Herausforderungen, KI für eine Sprache mit nahezu keinen Daten zu entwickeln. Der Autor betont, dass die größten Probleme nicht technischer, sondern menschlicher Natur waren. Die Inspiration entstand, als er Kommunikationsschwierigkeiten zwischen einem gehörlosen Mann und einer Barista in Beirut beobnete.

Dataset Low-Resource Language machine learning Sign Language AI

ARTICLEDEV.to AI·4/27/2026

ICE's $7.5M Face-Scanning Glasses Hit Streets by 2027 — And the Industry's Silence Is Complicity

Der Inhalt beschreibt den Plan der ICE, bis 2027 Gesichtsscan-Brillen im Wert von 7,5 Millionen Dollar einzusetzen, was eine signifikante Verschiebung von statischer forensischer Analyse zu Echtzeit-Identifizierung bedeutet. Diese Initiative wirft Bedenken hinsichtlich des weit verbreiteten Einsatzes biometrischer Wearables und der Auswirkungen auf Datenschutz und Überwachung auf.

biometrics Edge AI privacy security

ARTICLEDEV.to AI·5/8/2026

Facial Recognition's 81% Error Rate Is About to Blow Up in Court — Are Your Notes Ready?

Der Artikel beleuchtet die 81%ige Fehlerrate der Gesichtserkennung in Live-Implementierungen und deren rechtliche Auswirkungen für Entwickler. Diese müssen sich nun auf die Dokumentation von Methoden für die gerichtliche Verteidigung konzentrieren, was das Ende der 'Black-Box'-KI-Ära signalisiert.

biometrics security computer vision Facial recognition

RESEARCHarXiv CS.CL·5/5/2026

DIAGRAMS: A Review Framework for Reasoning-Level Attribution in Diagram QA

DIAGRAMS ist ein Überprüfungs-Framework für die Attributierung auf Argumentationsebene bei Diagramm-Frage-Antwort-Systemen (Diagram QA). Es entkoppelt die Schnittstellenlogik von datensatzspezifischen Formaten durch ein Metaschema und Adapter, was die Evidenzauswahl und -generierung erleichtert.

attribution Diagram QA machine learning computer vision

RESEARCHarXiv CS.CL·5/1/2026

Length Value Model: Scalable Value Pretraining for Token-Level Length Modeling

Dieses Papier stellt das Length Value Model (LenVM) vor, ein neuartiges Token-Level-Framework zur Modellierung der verbleibenden Generierungslänge in autoregressiven Modellen. Durch die Formulierung der Längenmodellierung als Wertschätzungsproblem liefert LenVM ein annotationsfreies, skalierbares und effektives Signal für LLMs und VLMs, das die Leistung bei Aufgaben mit exakter Längenübereinstimmung verbessert.

deep learning Model Architecture computer vision large language models

RESEARCHarXiv CS.AI·5/9/2026

Intelligent CCTV for Urban Design: AI-Based Analysis of Soft Infrastructure at Intersections

Diese Studie stellt ein KI-gestütztes Analyseframework vor, das vorhandene CCTV-Infrastruktur nutzt, um die Auswirkungen von weichen städtischen Interventionen auf Fahrzeuggeschwindigkeit und Sicherheit an Kreuzungen zu bewerten. Die Ergebnisse aus Minneapolis zeigen, dass diese Interventionen die Fahrzeuggeschwindigkeiten und den Durchgangsverkehr erheblich reduzierten.

transportation traffic management urban design computer vision

RESEARCHarXiv CS.CL·4/24/2026

Weighting What Matters: Boosting Sample Efficiency in Medical Report Generation via Token Reweighting

Diese Arbeit führt eine Token-Neugewichtungs-Verlustfunktion ein, um die Dateneffizienz beim Training von Vision-Sprachmodellen für die Erstellung medizinischer Berichte zu steigern. Durch die Priorisierung semantisch relevanter Token erzielt die Methode eine vergleichbare Berichtsqualität mit bis zu zehnmal weniger Trainingsdaten.

Data efficiency machine learning computer vision natural language generation

RESEARCHarXiv CS.LG·vor 7T

Hoeffding Concept Bottleneck Models with Applications to Overhead Images

Hoeffding Concept Bottleneck Modelle (HCBM) werden vorgestellt, um nicht-lineare und sparse Aggregationen von Konzept-Scores zu liefern, die die Erklärbarkeit und Genauigkeit von Deep-Learning-Vorhersagen verbessern. Diese Methode nutzt die Hoeffding-Funktionszerlegung von gradientenverstärkten Bäumen, um die Einschränkungen bestehender linearer CBMs zu überwinden, die unter einer großen Anzahl von Konzepten und potenziellen Informationslecks leiden.

deep learning machine learning computer vision Explainable AI

RESEARCHDEV.to AI·4/25/2026

PP-LCNet: A Lightweight CPU Convolutional Neural Network

PP-LCNet stellt ein leichtes Convolutional Neural Network vor, das für effiziente Leistung auf CPUs optimiert ist. Diese Architektur konzentriert sich darauf, hohe Genauigkeit bei minimalen Rechenanforderungen zu erzielen, ideal für ressourcenbeschränkte Umgebungen.

deep learning lightweight models computer vision Convolutional Neural Networks

RESEARCHarXiv CS.CL·vor 27T

ReVision: Scaling Computer-Use Agents via Temporal Visual Redundancy Reduction

ReVision stellt eine Methode zur Skalierung von Computernutzungsagenten vor, indem die zeitliche visuelle Redundanz in Interaktionstrajektorien reduziert wird. Es verwendet einen gelernten Patch-Selektor, um redundante visuelle Token zu entfernen, was den Token-Verbrauch um etwa 46% senkt und die Effizienz für multimodale Sprachmodelle über Benchmarks hinweg verbessert.

multimodal AI LLMs efficiency computer vision

ARTICLE↑ trendingReddit r/MachineLearning·4/27/2026

CVPR Workshop Decisions [D]

Ein Benutzer fragt, ob es normal ist, dass Entscheidungen für CVPR-Workshops noch nicht veröffentlicht wurden, da er innerhalb von etwa fünf Wochen Reisegenehmigungen benötigt. Er möchte die Organisatoren nicht verärgern, benötigt aber die Annahmebenachrichtigungen für seine Reiseplanung.

Workshops computer vision academic conferences CVPR

DOCDEV.to AI·vor 24T

Building a License Plate Recognition Engine in C++ — Part 2: Grayscale Image Preprocessing and Local Contrast Edge Detection

Dieser Artikel, der zweite Teil einer Reihe, beschreibt die Bildvorverarbeitungsphase zum Aufbau einer Kennzeichenerkennungs-Engine (LPR) in C++. Er behandelt die Erstellung integraler Bilder, die Analyse des lokalen Kontrasts und die Kantenerkennung, um Bereiche zu verbessern, die wahrscheinlich Kennzeichenzeichen enthalten, für Echtzeitsysteme.

LPR Image processing learning computer vision

RESEARCHDEV.to AI·4/25/2026

CoTracker3: Simpler and Better Point Tracking by Pseudo-Labelling Real Videos

CoTracker3 stellt eine einfachere und bessere Methode zur Punktverfolgung in Videos vor. Dies wird durch die Verwendung von Pseudo-Labeling auf realen Videodaten erreicht, was zu einer verbesserten Leistung führt.

point-tracking machine learning computer vision pseudo-labelling

ARTICLEDEV.to AI·4/13/2026

The Cop Who Made 3,000 Deepfakes Exposed a Bigger Problem Than Deepfakes

Der Artikel beleuchtet 3.000 Deepfakes eines Pennsylvania-Polizisten als Warnung vor technischer Schuld in der biometrischen Gesetzgebung, nicht nur als Skandal. Er argumentiert, dass die Eile der Gesetzgeber, „synthetische Medien“ zu definieren, die Grenze zwischen diskriminativer und generativer KI verwischt und Risiken für Entwickler legitimer Gesichtserkennungstools schafft.

regulation biometrics law enforcement computer vision

RESEARCHDEV.to AI·5/7/2026

Foundational Models Defining a New Era in Vision: A Survey and Outlook

Dieses Forschungspapier untersucht grundlegende Modelle, die eine neue Ära in der Computer Vision definieren, und bietet eine umfassende Analyse sowie Zukunftsaussichten. Es beleuchtet den Einfluss und die aufkommenden Trends dieser Modelle in diesem Bereich.

Survey Foundational Models machine learning computer vision

CASEDEV.to AI·4/20/2026

Beyond the Crop: Automating "Ghost Mannequin" Effects with Depth-Aware Inpainting

Der Inhalt beschreibt, wie Rewarx Studio AI den "Geister-Mannequin"-Effekt für den E-Commerce von Bekleidung automatisiert und dabei Herausforderungen bei Tiefe und Okklusion überwindet. Ihre Lösung umfasst eine dreistufige Pipeline: Semantisches Maskieren (SAM), Tiefenschätzung (Depth Anything) und kontextsensitives Inpainting (SDXL).

Image processing computer vision Inpainting e-commerce

RESEARCHDEV.to AI·4/28/2026

You Only Watch Once: A Unified CNN Architecture for Real-Time SpatiotemporalAction Localization

Der Titel beschreibt eine vereinheitlichte CNN-Architektur für die Echtzeit-Lokalisierung raum-zeitlicher Aktionen. Diese Arbeit konzentriert sich auf die Verbesserung der Effizienz und Genauigkeit bei der Erkennung von Aktivitäten in Videos.

CNN deep learning computer vision Action Recognition

RESEARCHDEV.to AI·4/19/2026

Camera identification with deep convolutional networks

Diese Forschung untersucht den Einsatz tiefer neuronaler Netze zur spezifischen Identifizierung von Kameras. Sie erforscht, wie diese fortschrittlichen KI-Modelle verschiedene Kameras unterscheiden können.

deep learning computer vision AI

ARTICLEDEV.to AI·4/27/2026

gsplat: An Open-Source Library for Gaussian Splatting

gsplat ist eine Open-Source-Bibliothek, die der Implementierung der Gaussian Splatting-Technik gewidmet ist. Sie bietet Werkzeuge und Ressourcen für 3D-Rekonstruktions- und Rendering-Anwendungen.

Open Source 3D reconstruction 3D Graphics computer vision

DOCDEV.to AI·4/28/2026

Building a No-Install AI Upscaler: Leveraging Cloud GPUs for Seamless Image Processing

Der GoHard AI Upscaler ist ein browserbasiertes Tool zur professionellen Bildverbesserung, das keine leistungsstarke lokale Hardware erfordert. Es ermöglicht eine installationsfreie Nutzung und konstante Leistung durch den Einsatz von Python, optimierten KI-Modellen und Google Colab Cloud-GPUs.

Image processing deep learning cloud computing machine learning