← heapsort-ai

Image processing

19 items

ARTICLE↑ trendingReddit r/LocalLLaMA·4/22/2026

Local manga translator with LLM build-in, written in Rust with llama.cpp integration

Dieses Projekt ist ein Manga- und Bildübersetzer, geschrieben in Rust, der Objekterkennung, visuelles LLM-basiertes OCR, Layoutanalyse und feinabgestimmte Inpainting-Modelle nutzt. Es integriert llama.cpp zur Unterstützung lokaler LLM-Inferenz mit Modellen wie Gemma und Qwen und bietet eine leistungsstarke und benutzerfreundliche Pipeline.

Local manga translator with LLM build-in, written in Rust with llama.cpp integration
43
ARTICLE↑ trendingReddit r/MachineLearning·4/9/2026

Detecting mirrored selfie images: OCR the best way? [D]

O usuário busca um método eficaz para detectar texto invertido em selfies antes de passá-los para modelos de Visão-Linguagem (VLM) ou extratores de embedding facial, que são insensíveis a essa inversão devido ao treinamento com dados aumentados. Sua ideia é usar OCR (EasyOCR) para comparar a pontuação de leitura de texto normal versus espelhado, questionando se esta é a melhor abordagem ou se existe uma solução de modelo menor e mais inteligente.

40
DOCDEV.to AI·5/10/2026

How I cut speech-bubble retries from 70% to 0% with 200 lines of Pillow code

Der Autor reduzierte drastisch die Wiederholungsversuche bei der KI-Bilderzeugung für unleserlichen Text in Sprechblasen, indem er die Typografie auf einen deterministischen Nachbearbeitungsschritt auslagerte. Dies beinhaltete, dass die KI leere Sprechblasen zeichnete und dann Pillow und OpenCV verwendete, um lesbaren Text hinzuzufügen, wodurch eine Null-Wiederholungsrate für textbezogene Probleme erreicht wurde.

28
ARTICLEDEV.to AI·vor 26T

Browser AI vs Cloud APIs for Image Processing

Dieser Artikel vergleicht die cloudbasierte Bildverarbeitung mit der clientseitigen KI-Bildverarbeitung und beleuchtet die Kompromisse, die beim Aufbau eines quelloffenen, browserbasierten Hintergrundentferners auftraten. Er zeigt auf, wie KI-gestützte Hintergrundentfernung und andere Funktionen lokal auf dem Gerät des Benutzers ausgeführt werden können, was andere Vor- und Nachteile im Vergleich zu Cloud-APIs bietet.

27
DOCDEV.to AI·vor 24T

Building a License Plate Recognition Engine in C++ — Part 2: Grayscale Image Preprocessing and Local Contrast Edge Detection

Dieser Artikel, der zweite Teil einer Reihe, beschreibt die Bildvorverarbeitungsphase zum Aufbau einer Kennzeichenerkennungs-Engine (LPR) in C++. Er behandelt die Erstellung integraler Bilder, die Analyse des lokalen Kontrasts und die Kantenerkennung, um Bereiche zu verbessern, die wahrscheinlich Kennzeichenzeichen enthalten, für Echtzeitsysteme.

27
ARTICLEDEV.to AI·4/24/2026

Dialing in the Perfect Mood: Mastering Photo Lighting with AI Relighting

Der Text beschreibt, wie KI-Beleuchtungsanpassung die Produktfotografie für den E-Commerce optimiert, indem sie flache Innenaufnahmen in dynamische, texturierte Bilder verwandelt. Diese KI-Fähigkeit passt intelligent die Lichtquelle an, um Stimmung, Richtung und Intensität zu ändern, was Zeit spart und die Workflow-Konsistenz gewährleistet.

26
ARTICLEDEV.to AI·4/21/2026

Common Limitations of Image Processing Metrics: A Picture Story

Dieser Inhalt analysiert die gängigen Einschränkungen von Bildverarbeitungsmetriken und verwendet visuelle Beispiele, um zu veranschaulichen, wie traditionelle Bewertungsmethoden möglicherweise nicht immer mit der menschlichen Wahrnehmung übereinstimmen oder die Algorithmusleistung genau widerspiegeln. Es beleuchtet die Herausforderungen bei der objektiven Beurteilung der Bildqualität und Verarbeitungseffektivität.

25