computer vision

125 items

RESEARCHarXiv CS.LG·vor 5T

Do Transformers Need Three Projections? Systematic Study of QKV Variants

Diese Forschung untersucht systematisch Varianten der Query-, Key- und Value- (QKV) Aufmerksamkeitsformulierung in Transformatoren, einschließlich geteilter Key-Value-, Query-Key- und Einzelprojektionen. Experimente in synthetischen Aufgaben, Vision und Sprachmodellierung zeigen, dass diese alternativen Formulierungen gleich gut oder manchmal besser als Standard-QKV-Transformatoren abschneiden, wobei die Q-K=V-Teilung eine erhebliche KV-Cache-Reduzierung in der Sprachmodellierung bietet.

QKV computer vision attention mechanisms Language modeling

ARTICLEDEV.to AI·vor 27T

Everything Google announced at its Android Show, from Googlebooks to vibe-coded widgets

Der Artikel analysiert technisch die Ankündigungen der Google Android Show, insbesondere die neue Google Books App und die Stimmungs-kodierten Widgets. Es wird detailliert beschrieben, wie Google Books eine proprietäre Rendering-Engine mit ML zur Texterkennung nutzt und wie Widgets NLP sowie Computer Vision über TensorFlow Lite für personalisierte Erlebnisse einsetzen.

Android machine learning computer vision Natural Language Processing

ARTICLE↑ trendingReddit r/MachineLearning·4/16/2026

Camera-ready paranoia [D]

Nach der Einreichung ihres Papiers bei CVPRW verspürt ein Benutzer eine „camera-ready Paranoia“ und befürchtet trotz der Verwendung eines PDF-Validierungstools und der korrekten Vorlage eine Ablehnung aufgrund möglicher Fehler. Sie suchen Bestätigung, wann das Papier in die Tagungsband aufgenommen wird, und weisen auf den aktuellen Status „In Produktion“ hin.

academic submission research publishing computer vision AI Research

ARTICLEDEV.to AI·4/18/2026

Privacy-Preserving Active Learning for sustainable aquaculture monitoring systems with inverse simulation verification

Der Text stellt die Herausforderungen bei der KI-gestützten Optimierung nachhaltiger Aquakultur vor, insbesondere Datenknappheit, Datenschutzbedenken und die Simulations-Realitäts-Lücke in Computer-Vision-Anwendungen. Er beschreibt den Weg des Autors zur Formulierung eines Privacy-Preserving Active Learning-Ansatzes mit inverser Simulationsverifikation, um diese praktischen Probleme zu adressieren.

Privacy AI aquaculture computer vision sustainable AI

RESEARCHDEV.to AI·4/13/2026

FairFace: Face Attribute Dataset for Balanced Race, Gender, and Age

FairFace ist ein Datensatz von Gesichtsattributen, der entwickelt wurde, um Verzerrungen in KI-Modellen durch eine ausgewogene Repräsentation von Rasse, Geschlecht und Alter zu mindern. Er zielt darauf ab, die Fairness und Robustheit von Computer-Vision-Systemen zu verbessern und somit eine gerechtere Leistung zu gewährleisten.

FairFace Dataset Bias Mitigation computer vision

RESEARCHDEV.to AI·4/8/2026

An All-in-One Network for Dehazing and Beyond

Este conteúdo explora uma rede neural unificada projetada para remover neblina de imagens e potencialmente realizar outras tarefas de processamento de imagem. Aborda soluções avançadas em visão computacional e inteligência artificial.

Image processing deep learning computer vision Dehazing

RESEARCHDEV.to AI·5/2/2026

Temporal-Channel Transformer for 3D Lidar-Based Video Object Detection inAutonomous Driving

Diese Forschung stellt einen Temporal-Channel Transformer für die 3D-Lidar-basierte Video-Objekterkennung vor. Ziel ist es, die Wahrnehmungsfähigkeiten von autonomen Fahrsystemen durch die Verarbeitung sequenzieller Lidar-Daten zu verbessern.

object detection computer vision autonomous driving LiDAR

ARTICLEDEV.to AI·5/4/2026

Flagged by a Face: Innocent Shoppers Banned With No Way to Fight Back

Der Artikel erörtert, wie technische Fehler bei Gesichtserkennungs-Überwachungslisten dazu führen, dass unschuldige Kunden ohne Einspruchsmöglichkeit ausgeschlossen werden. Er beleuchtet die Kluft zwischen der Identifikationsgenauigkeit im Labor und der Rechenschaftspflicht in der Praxis und betont das Problem von Fehlalarmen in 1:N-Suchsystemen.

ethics privacy security computer vision

RESEARCHDEV.to AI·5/9/2026

Anticipating Visual Representations from Unlabeled Video

Dieser Inhalt untersucht Methoden zur Antizipation visueller Repräsentationen aus unbeschrifteten Videos. Die Forschung befasst sich mit der Fähigkeit von Modellen, visuelle Merkmale ohne explizite Überwachung zu lernen, um das kontextuelle Verständnis in Videosequenzen zu verbessern.

computer vision representation learning video-analysis unsupervised learning

RESEARCHarXiv CS.LG·vor 25T

Vision-Based Runtime Monitoring under Varying Specifications using Semantic Latent Representations

Diese Arbeit untersucht die zertifizierte Laufzeitüberwachung von zeitlicher Signallogik (ptSTL) aus visuellen Beobachtungen unter partieller Beobachtbarkeit. Sie schlägt einen wiederverwendbaren Monitor vor, der sicherheitsrelevante Größen aus Bildern ableitet und Endstichproben-Garantien bietet, wobei semantische latente Repräsentationen verwendet werden, um Formeln ohne formelspezifisches Nachtraining zu zertifizieren.

machine learning computer vision runtime monitoring formal methods

RESEARCHDEV.to AI·4/19/2026

F-VLM: Open-Vocabulary Object Detection upon Frozen Vision and Language Models

F-VLM führt einen neuartigen Ansatz für die Open-Vocabulary-Objekterkennung ein, indem es effizient eingefrorene vortrainierte Visions- und Sprachmodelle nutzt. Diese Methode ermöglicht die Identifizierung einer Vielzahl von Objekten, ohne spezifische Trainingsdaten für jede neue Kategorie zu benötigen.

Vision-Language Models deep learning object detection computer vision

DOCDEV.to AI·5/10/2026

How I cut speech-bubble retries from 70% to 0% with 200 lines of Pillow code

Der Autor reduzierte drastisch die Wiederholungsversuche bei der KI-Bilderzeugung für unleserlichen Text in Sprechblasen, indem er die Typografie auf einen deterministischen Nachbearbeitungsschritt auslagerte. Dies beinhaltete, dass die KI leere Sprechblasen zeichnete und dann Pillow und OpenCV verwendete, um lesbaren Text hinzuzufügen, wodurch eine Null-Wiederholungsrate für textbezogene Probleme erreicht wurde.

Image processing AI generation Stable Diffusion computer vision

RESEARCHarXiv CS.AI·4/20/2026

GIST: Multimodal Knowledge Extraction and Spatial Grounding via Intelligent Semantic Topology

GIST stellt eine multimodale Wissensextraktionspipeline für die räumliche Verankerung in komplexen Umgebungen vor, die mobile Punktwolken in semantisch annotierte Navigationstopologien umwandelt. Sie destilliert Szenen in 2D-Belegungskarten, extrahiert topologische Layouts und überlagert eine leichte semantische Schicht, um verkörperte KI und Menschen zu unterstützen.

multimodal AI navigation spatial AI computer vision

RESEARCHarXiv CS.CL·4/23/2026

Hybrid Multi-Phase Page Matching and Multi-Layer Diff Detection for Japanese Building Permit Document Review

Diese Forschung stellt einen hybriden mehrphasigen Seitenabgleichsalgorithmus zur automatisierten Überprüfung japanischer Baugenehmigungsdokumente vor, ein bisher arbeitsintensiver und fehleranfälliger Prozess. Der Algorithmus gleicht Seiten robust über Revisionen hinweg ab und nutzt eine mehrschichtige Diff-Engine (Text-, Tabellen-, Pixelebene), um detaillierte und hochpräzise Differenzberichte zu erstellen.

machine learning computer vision document processing automation

RESEARCHDEV.to AI·5/9/2026

DeXpression: Deep Convolutional Neural Network for Expression Recognition

DeXpression ist ein tiefes Convolutional Neural Network-Modell, das für die präzise Erkennung von Gesichtsausdrücken entwickelt wurde. Es zielt darauf ab, die Fähigkeit von Computer-Vision-Systemen zu verbessern, menschliche Emotionen aus Bildern zu interpretieren.

facial expression recognition deep learning computer vision Convolutional Neural Networks

ARTICLEDEV.to AI·4/23/2026

BiRefNet vs rembg vs U2Net: Which Background Removal Model Actually Works in Production?

Dieser Artikel vergleicht die Leistung der Hintergrundentfernungsmodelle BiRefNet, rembg und U2Net in der Produktion und betont, dass die Unterschiede größer sind als Benchmarks vermuten lassen. Er beschreibt die brutalen und unterschiedlichen Fehlerfälle jedes Modells bei Skalierung.

AI models Production AI Image processing Benchmarking

RESEARCHarXiv CS.AI·4/8/2026

Part-Level 3D Gaussian Vehicle Generation with Joint and Hinge Axis Estimation

Este trabalho propõe um framework generativo para sintetizar veículos 3D Gaussianos animáveis a partir de uma única imagem ou entradas multi-view esparsas. Ele visa superar as limitações dos modelos de veículos rígidos atuais em simulações de direção autônoma, introduzindo um módulo de refinamento para articulação de partes.

computer vision autonomous driving 3D Generation Vehicle Simulation

ARTICLEDEV.to AI·4/15/2026

We Integrated Netflix's VOID Model Into Our API — Here's What Nobody Tells You About Video Object Removal

Der Artikel beschreibt die Integration von Netflix' VOID-Modell in eine API zur Entfernung von Videoobjekten. Er erklärt, wie VOID die Probleme traditioneller Inpainting-Tools, die Artefakte und Physik nicht berücksichtigen, überwindet, indem es das Problem als 4D behandelt.

Netflix VOID computer vision Video Inpainting Video Object Removal

ARTICLEDEV.to AI·4/18/2026

Discord Leaked 70,000 IDs Answering One Simple Question: Are You 18?

Die Offenlegung von 70.000 Regierungs-IDs durch Discord zur Altersverifikation beleuchtet einen schwerwiegenden Fall architektonischer Übererfassung. Der Artikel plädiert dafür, sich von vollständiger identitätsgebundener Verifikation hin zu schwellenwertbasierter Schätzung mittels Gesichtsaltersschätzungstools für binäre Fragen zu bewegen.

biometrics data privacy data breach computer vision

ARTICLEDEV.to AI·vor 17T

YouTube Just Made Every Creator a Deepfake Cop — Here's Why Investigators Should Be Nervous

Die erweiterten Deepfake-Erkennungstools von YouTube verwandeln die Verifizierung synthetischer Medien in eine Standardproduktionsanforderung und verschieben die Beweislast bei digitalen Ermittlungen. Diese "Demokratisierung der Erkennung" bedeutet, dass Plattform-Ähnlichkeitserkennungs-Flags zu primären Artefakten in Rechts- und Versicherungsstreitigkeiten werden.

deepfake security computer vision fraud detection