← heapsort-ai

Image processing

19 items

ARTICLE↑ trendingReddit r/LocalLLaMA·22/4/2026

Local manga translator with LLM build-in, written in Rust with llama.cpp integration

Este proyecto es un traductor de manga e imágenes, desarrollado en Rust, que utiliza detección de objetos, OCR visual basado en LLM, análisis de diseño y modelos de inpainting. Integra llama.cpp para soportar la inferencia local de LLM con modelos como Gemma y Qwen, ofreciendo una solución de pipeline eficiente y fácil de usar.

Local manga translator with LLM build-in, written in Rust with llama.cpp integration
43
ARTICLE↑ trendingReddit r/MachineLearning·9/4/2026

Detecting mirrored selfie images: OCR the best way? [D]

O usuário busca um método eficaz para detectar texto invertido em selfies antes de passá-los para modelos de Visão-Linguagem (VLM) ou extratores de embedding facial, que são insensíveis a essa inversão devido ao treinamento com dados aumentados. Sua ideia é usar OCR (EasyOCR) para comparar a pontuação de leitura de texto normal versus espelhado, questionando se esta é a melhor abordagem ou se existe uma solução de modelo menor e mais inteligente.

40
DOCDEV.to AI·10/5/2026

How I cut speech-bubble retries from 70% to 0% with 200 lines of Pillow code

El autor redujo drásticamente los reintentos de generación de imágenes de IA con texto ilegible en globos de diálogo al delegar la tipografía a un paso de post-procesamiento determinista. Esto implicó que la IA dibujara burbujas vacías y luego usara Pillow y OpenCV para añadir texto legible, logrando una tasa de cero reintentos para problemas de texto.

28
ARTICLEDEV.to AI·hace 26d

Browser AI vs Cloud APIs for Image Processing

Este artículo compara el procesamiento de imágenes basado en la nube con el procesamiento de imágenes con IA del lado del cliente, explorando las ventajas y desventajas encontradas al desarrollar un removedor de fondo de código abierto basado en navegador. Destaca cómo la eliminación de fondos y otras funciones de IA pueden ejecutarse localmente en el dispositivo del usuario, ofreciendo un conjunto diferente de compensaciones en comparación con las API en la nube.

27
DOCDEV.to AI·hace 24d

Building a License Plate Recognition Engine in C++ — Part 2: Grayscale Image Preprocessing and Local Contrast Edge Detection

Este artículo, la segunda parte de una serie, detalla la etapa de preprocesamiento de imágenes para construir un motor de Reconocimiento de Matrículas (LPR) en C++. Cubre la generación de imágenes integrales, el análisis de contraste local y la extracción de mapas de bordes para mejorar las regiones que probablemente contengan caracteres de matrículas para sistemas en tiempo real.

27
CASEDEV.to AI·20/4/2026

Beyond the Crop: Automating "Ghost Mannequin" Effects with Depth-Aware Inpainting

El contenido describe cómo Rewarx Studio AI automatiza el efecto "maniquí fantasma" para el comercio electrónico de ropa, superando desafíos de profundidad y oclusión. Su solución implica una tubería de tres pasos: enmascaramiento semántico (SAM), estimación de profundidad (Depth Anything) e inpainting consciente del contexto (SDXL).

27
ARTICLEDEV.to AI·21/4/2026

Convert Images into Presentations Automatically Using AI

El contenido describe un flujo de trabajo impulsado por IA para convertir automáticamente información visual de imágenes, como capturas de pantalla y diagramas, en presentaciones estructuradas. Este proceso tiene como objetivo simplificar el análisis manual y la creación de diapositivas, requiriendo imágenes claras y de alta calidad para obtener resultados óptimos.

26
ARTICLEDEV.to AI·24/4/2026

Dialing in the Perfect Mood: Mastering Photo Lighting with AI Relighting

El texto explica cómo la reeluminación por IA está optimizando la fotografía de productos para el comercio electrónico, transformando fotos planas en imágenes con profundidad y textura. Esta capacidad de IA ajusta inteligentemente la fuente de luz para cambiar el ambiente, la dirección y la intensidad, lo que ahorra tiempo y garantiza la coherencia del flujo de trabajo.

26
ARTICLEDEV.to AI·21/4/2026

Common Limitations of Image Processing Metrics: A Picture Story

Este contenido analiza las limitaciones comunes de las métricas de procesamiento de imágenes, utilizando ejemplos visuales para ilustrar cómo los métodos de evaluación tradicionales pueden no alinearse siempre con la percepción humana o reflejar con precisión el rendimiento del algoritmo. Destaca los desafíos en la evaluación objetiva de la calidad y eficacia del procesamiento de imágenes.

25
ARTICLEDEV.to AI·24/4/2026

Cleaning Up Imperfections: Seamless Object Removal with AI Inpainting

El contenido trata sobre cómo la inpainting de IA permite la eliminación perfecta de objetos de imágenes, eliminando eficazmente distracciones como personas u objetos no deseados. Esta capacidad es crucial para desarrolladores en aplicaciones de medios visuales, reduciendo significativamente el tiempo de postproducción en diversas industrias.

21