← heapsort-ai

computer vision

125 items

RESEARCHarXiv CS.LG·vor 5T

Do Transformers Need Three Projections? Systematic Study of QKV Variants

Diese Forschung untersucht systematisch Varianten der Query-, Key- und Value- (QKV) Aufmerksamkeitsformulierung in Transformatoren, einschließlich geteilter Key-Value-, Query-Key- und Einzelprojektionen. Experimente in synthetischen Aufgaben, Vision und Sprachmodellierung zeigen, dass diese alternativen Formulierungen gleich gut oder manchmal besser als Standard-QKV-Transformatoren abschneiden, wobei die Q-K=V-Teilung eine erhebliche KV-Cache-Reduzierung in der Sprachmodellierung bietet.

29
ARTICLEDEV.to AI·vor 27T

Everything Google announced at its Android Show, from Googlebooks to vibe-coded widgets

Der Artikel analysiert technisch die Ankündigungen der Google Android Show, insbesondere die neue Google Books App und die Stimmungs-kodierten Widgets. Es wird detailliert beschrieben, wie Google Books eine proprietäre Rendering-Engine mit ML zur Texterkennung nutzt und wie Widgets NLP sowie Computer Vision über TensorFlow Lite für personalisierte Erlebnisse einsetzen.

29
ARTICLE↑ trendingReddit r/MachineLearning·4/16/2026

Camera-ready paranoia [D]

Nach der Einreichung ihres Papiers bei CVPRW verspürt ein Benutzer eine „camera-ready Paranoia“ und befürchtet trotz der Verwendung eines PDF-Validierungstools und der korrekten Vorlage eine Ablehnung aufgrund möglicher Fehler. Sie suchen Bestätigung, wann das Papier in die Tagungsband aufgenommen wird, und weisen auf den aktuellen Status „In Produktion“ hin.

29
ARTICLEDEV.to AI·4/18/2026

Privacy-Preserving Active Learning for sustainable aquaculture monitoring systems with inverse simulation verification

Der Text stellt die Herausforderungen bei der KI-gestützten Optimierung nachhaltiger Aquakultur vor, insbesondere Datenknappheit, Datenschutzbedenken und die Simulations-Realitäts-Lücke in Computer-Vision-Anwendungen. Er beschreibt den Weg des Autors zur Formulierung eines Privacy-Preserving Active Learning-Ansatzes mit inverser Simulationsverifikation, um diese praktischen Probleme zu adressieren.

28
RESEARCHarXiv CS.LG·vor 25T

Vision-Based Runtime Monitoring under Varying Specifications using Semantic Latent Representations

Diese Arbeit untersucht die zertifizierte Laufzeitüberwachung von zeitlicher Signallogik (ptSTL) aus visuellen Beobachtungen unter partieller Beobachtbarkeit. Sie schlägt einen wiederverwendbaren Monitor vor, der sicherheitsrelevante Größen aus Bildern ableitet und Endstichproben-Garantien bietet, wobei semantische latente Repräsentationen verwendet werden, um Formeln ohne formelspezifisches Nachtraining zu zertifizieren.

28
DOCDEV.to AI·5/10/2026

How I cut speech-bubble retries from 70% to 0% with 200 lines of Pillow code

Der Autor reduzierte drastisch die Wiederholungsversuche bei der KI-Bilderzeugung für unleserlichen Text in Sprechblasen, indem er die Typografie auf einen deterministischen Nachbearbeitungsschritt auslagerte. Dies beinhaltete, dass die KI leere Sprechblasen zeichnete und dann Pillow und OpenCV verwendete, um lesbaren Text hinzuzufügen, wodurch eine Null-Wiederholungsrate für textbezogene Probleme erreicht wurde.

28
RESEARCHarXiv CS.AI·4/20/2026

GIST: Multimodal Knowledge Extraction and Spatial Grounding via Intelligent Semantic Topology

GIST stellt eine multimodale Wissensextraktionspipeline für die räumliche Verankerung in komplexen Umgebungen vor, die mobile Punktwolken in semantisch annotierte Navigationstopologien umwandelt. Sie destilliert Szenen in 2D-Belegungskarten, extrahiert topologische Layouts und überlagert eine leichte semantische Schicht, um verkörperte KI und Menschen zu unterstützen.

28
RESEARCHarXiv CS.CL·4/23/2026

Hybrid Multi-Phase Page Matching and Multi-Layer Diff Detection for Japanese Building Permit Document Review

Diese Forschung stellt einen hybriden mehrphasigen Seitenabgleichsalgorithmus zur automatisierten Überprüfung japanischer Baugenehmigungsdokumente vor, ein bisher arbeitsintensiver und fehleranfälliger Prozess. Der Algorithmus gleicht Seiten robust über Revisionen hinweg ab und nutzt eine mehrschichtige Diff-Engine (Text-, Tabellen-, Pixelebene), um detaillierte und hochpräzise Differenzberichte zu erstellen.

28
RESEARCHarXiv CS.AI·4/8/2026

Part-Level 3D Gaussian Vehicle Generation with Joint and Hinge Axis Estimation

Este trabalho propõe um framework generativo para sintetizar veículos 3D Gaussianos animáveis a partir de uma única imagem ou entradas multi-view esparsas. Ele visa superar as limitações dos modelos de veículos rígidos atuais em simulações de direção autônoma, introduzindo um módulo de refinamento para articulação de partes.

28
ARTICLEDEV.to AI·vor 17T

YouTube Just Made Every Creator a Deepfake Cop — Here's Why Investigators Should Be Nervous

Die erweiterten Deepfake-Erkennungstools von YouTube verwandeln die Verifizierung synthetischer Medien in eine Standardproduktionsanforderung und verschieben die Beweislast bei digitalen Ermittlungen. Diese "Demokratisierung der Erkennung" bedeutet, dass Plattform-Ähnlichkeitserkennungs-Flags zu primären Artefakten in Rechts- und Versicherungsstreitigkeiten werden.

28