← heapsort-ai

computer vision

125 items

ARTICLEDEV.to AI·5/5/2026

We Built Sign Language AI for a Language With Almost No Dataset. Here's What That Actually Looks Like.

Dieser Artikel beschreibt die Entwicklung von OmniSign, einem Echtzeit-Übersetzer für die libanesische Gebärdensprache (LSL), und befasst sich mit den Herausforderungen, KI für eine Sprache mit nahezu keinen Daten zu entwickeln. Der Autor betont, dass die größten Probleme nicht technischer, sondern menschlicher Natur waren. Die Inspiration entstand, als er Kommunikationsschwierigkeiten zwischen einem gehörlosen Mann und einer Barista in Beirut beobnete.

27
ARTICLEDEV.to AI·4/27/2026

ICE's $7.5M Face-Scanning Glasses Hit Streets by 2027 — And the Industry's Silence Is Complicity

Der Inhalt beschreibt den Plan der ICE, bis 2027 Gesichtsscan-Brillen im Wert von 7,5 Millionen Dollar einzusetzen, was eine signifikante Verschiebung von statischer forensischer Analyse zu Echtzeit-Identifizierung bedeutet. Diese Initiative wirft Bedenken hinsichtlich des weit verbreiteten Einsatzes biometrischer Wearables und der Auswirkungen auf Datenschutz und Überwachung auf.

27
RESEARCHarXiv CS.CL·5/1/2026

Length Value Model: Scalable Value Pretraining for Token-Level Length Modeling

Dieses Papier stellt das Length Value Model (LenVM) vor, ein neuartiges Token-Level-Framework zur Modellierung der verbleibenden Generierungslänge in autoregressiven Modellen. Durch die Formulierung der Längenmodellierung als Wertschätzungsproblem liefert LenVM ein annotationsfreies, skalierbares und effektives Signal für LLMs und VLMs, das die Leistung bei Aufgaben mit exakter Längenübereinstimmung verbessert.

27
RESEARCHarXiv CS.AI·5/9/2026

Intelligent CCTV for Urban Design: AI-Based Analysis of Soft Infrastructure at Intersections

Diese Studie stellt ein KI-gestütztes Analyseframework vor, das vorhandene CCTV-Infrastruktur nutzt, um die Auswirkungen von weichen städtischen Interventionen auf Fahrzeuggeschwindigkeit und Sicherheit an Kreuzungen zu bewerten. Die Ergebnisse aus Minneapolis zeigen, dass diese Interventionen die Fahrzeuggeschwindigkeiten und den Durchgangsverkehr erheblich reduzierten.

27
RESEARCHarXiv CS.CL·4/24/2026

Weighting What Matters: Boosting Sample Efficiency in Medical Report Generation via Token Reweighting

Diese Arbeit führt eine Token-Neugewichtungs-Verlustfunktion ein, um die Dateneffizienz beim Training von Vision-Sprachmodellen für die Erstellung medizinischer Berichte zu steigern. Durch die Priorisierung semantisch relevanter Token erzielt die Methode eine vergleichbare Berichtsqualität mit bis zu zehnmal weniger Trainingsdaten.

27
RESEARCHarXiv CS.LG·vor 7T

Hoeffding Concept Bottleneck Models with Applications to Overhead Images

Hoeffding Concept Bottleneck Modelle (HCBM) werden vorgestellt, um nicht-lineare und sparse Aggregationen von Konzept-Scores zu liefern, die die Erklärbarkeit und Genauigkeit von Deep-Learning-Vorhersagen verbessern. Diese Methode nutzt die Hoeffding-Funktionszerlegung von gradientenverstärkten Bäumen, um die Einschränkungen bestehender linearer CBMs zu überwinden, die unter einer großen Anzahl von Konzepten und potenziellen Informationslecks leiden.

27
RESEARCHarXiv CS.CL·vor 27T

ReVision: Scaling Computer-Use Agents via Temporal Visual Redundancy Reduction

ReVision stellt eine Methode zur Skalierung von Computernutzungsagenten vor, indem die zeitliche visuelle Redundanz in Interaktionstrajektorien reduziert wird. Es verwendet einen gelernten Patch-Selektor, um redundante visuelle Token zu entfernen, was den Token-Verbrauch um etwa 46% senkt und die Effizienz für multimodale Sprachmodelle über Benchmarks hinweg verbessert.

27
ARTICLE↑ trendingReddit r/MachineLearning·4/27/2026

CVPR Workshop Decisions [D]

Ein Benutzer fragt, ob es normal ist, dass Entscheidungen für CVPR-Workshops noch nicht veröffentlicht wurden, da er innerhalb von etwa fünf Wochen Reisegenehmigungen benötigt. Er möchte die Organisatoren nicht verärgern, benötigt aber die Annahmebenachrichtigungen für seine Reiseplanung.

27
DOCDEV.to AI·vor 24T

Building a License Plate Recognition Engine in C++ — Part 2: Grayscale Image Preprocessing and Local Contrast Edge Detection

Dieser Artikel, der zweite Teil einer Reihe, beschreibt die Bildvorverarbeitungsphase zum Aufbau einer Kennzeichenerkennungs-Engine (LPR) in C++. Er behandelt die Erstellung integraler Bilder, die Analyse des lokalen Kontrasts und die Kantenerkennung, um Bereiche zu verbessern, die wahrscheinlich Kennzeichenzeichen enthalten, für Echtzeitsysteme.

27
ARTICLEDEV.to AI·4/13/2026

The Cop Who Made 3,000 Deepfakes Exposed a Bigger Problem Than Deepfakes

Der Artikel beleuchtet 3.000 Deepfakes eines Pennsylvania-Polizisten als Warnung vor technischer Schuld in der biometrischen Gesetzgebung, nicht nur als Skandal. Er argumentiert, dass die Eile der Gesetzgeber, „synthetische Medien“ zu definieren, die Grenze zwischen diskriminativer und generativer KI verwischt und Risiken für Entwickler legitimer Gesichtserkennungstools schafft.

27