← heapsort-ai

OCR

21 items

ARTICLE↑ trendingReddit r/LocalLLaMA·22/4/2026

Local manga translator with LLM build-in, written in Rust with llama.cpp integration

Este proyecto es un traductor de manga e imágenes, desarrollado en Rust, que utiliza detección de objetos, OCR visual basado en LLM, análisis de diseño y modelos de inpainting. Integra llama.cpp para soportar la inferencia local de LLM con modelos como Gemma y Qwen, ofreciendo una solución de pipeline eficiente y fácil de usar.

Local manga translator with LLM build-in, written in Rust with llama.cpp integration
43
RESEARCH↑ trendingReddit r/MachineLearning·23/4/2026

We benchmarked 18 LLMs on OCR (7k+ calls) — cheaper/old models oftentimes win. Full dataset + framework open-sourced. [R]

Investigadores realizaron un benchmark de 18 LLMs para OCR, descubriendo que los modelos más baratos y antiguos a menudo igualan o superan la precisión de los modelos insignia a una fracción del costo. Han hecho de código abierto su conjunto de datos y framework de benchmarking.

43
ARTICLE↑ trendingHacker News (AI)·hace 15d

Show HN: Unsiloed AI – #1 on olmOCR-Bench

El Unsiloed Parser v3.1 obtuvo el puesto número 1 en olmOCR-Bench, superando a otros 18 servicios de OCR, incluidos modelos avanzados de IA. La evaluación, realizada en 1.403 PDFs y 8.413 pruebas unitarias, demostró su capacidad para manejar desafíos complejos de documentos del mundo real, como tablas intrincadas y diseños de varias columnas.

42
ARTICLE↑ trendingReddit r/MachineLearning·13/4/2026

TurboOCR: 270–1200 img/s OCR with Paddle + TensorRT (C++/CUDA, FP16) [P]

TurboOCR logra entre 270 y 1200 img/s de OCR optimizando PaddleOCR con C++/CUDA, TensorRT FP16, kernels fusionados y procesamiento por lotes, abordando los cuellos de botella de rendimiento de los enfoques basados en VLM. Esta solución mejora drásticamente el rendimiento para el procesamiento de documentos a gran escala y es adecuada para aplicaciones RAG en tiempo real.

42
ARTICLE↑ trendingReddit r/MachineLearning·9/4/2026

Detecting mirrored selfie images: OCR the best way? [D]

O usuário busca um método eficaz para detectar texto invertido em selfies antes de passá-los para modelos de Visão-Linguagem (VLM) ou extratores de embedding facial, que são insensíveis a essa inversão devido ao treinamento com dados aumentados. Sua ideia é usar OCR (EasyOCR) para comparar a pontuação de leitura de texto normal versus espelhado, questionando se esta é a melhor abordagem ou se existe uma solução de modelo menor e mais inteligente.

40
CASE↑ trendingReddit r/MachineLearning·10/4/2026

[D] Large scale OCR [D]

Um usuário busca a forma mais econômica e rápida (1 semana) de realizar OCR em 50 milhões de páginas de documentos legais, focando apenas no texto e sem se preocupar com o layout. Este é um desafio prático de processamento de documentos em larga escala com restrições de tempo e custo.

36
ARTICLEDEV.to AI·19/4/2026

Tại sao OCR đa ngôn ngữ thất bại dù đã mở rộng character set

Muchos equipos de OCR asumen que expandir el conjunto de caracteres mejora automáticamente el reconocimiento, pero este artículo revela que es una visión simplificada. El éxito del OCR multilingüe depende críticamente del entrenamiento con datos que reflejen formas de glifos reales, variaciones de fuentes, distribución de idiomas y diseños de documentos.

28
RESEARCHarXiv CS.AI·hace 20d

Operationalizing Document AI: A Microservice Architecture for OCR and LLM Pipelines in Production

Este artículo presenta una arquitectura de microservicios para la operacionalización de pipelines de comprensión de documentos, combinando OCR y Modelos de Lenguaje Grandes para la extracción de campos estructurados a escala de producción. Detalla decisiones clave de diseño, como el procesamiento asincrónico y la escalabilidad independiente, destacando el dominio del OCR en la latencia de extremo a extremo.

27
ARTICLEDEV.to AI·hace 24d

AI-Powered Document OCR for Business: Moving Beyond Simple Text Extraction

Este artículo explora el OCR avanzado para documentos comerciales, yendo más allá de la extracción de texto simple para manejar casos complejos como registros manuscritos y diseños de varias columnas. Detalla la arquitectura técnica y las lecciones aprendidas de implementaciones reales, especialmente en flujos de trabajo legales y notariales en Italia.

27
DOCDEV.to AI·4/5/2026

Building AI-Powered Apps for Free in 2026 — The Complete Guide

Esta guía completa detalla cómo construir aplicaciones impulsadas por IA de forma gratuita, utilizando herramientas como Gemini 2.5 Flash, Ollama (LLMs locales), Apple Vision Framework para OCR y modelos locales de voz a texto. Cubre varias opciones, límites de la capa gratuita y patrones de implementación para desarrolladores, además de advertir sobre el uso de datos para entrenamiento en APIs de capa gratuita.

27
RESEARCHarXiv CS.CL·6/5/2026

MedStruct-S: A Benchmark for Key Discovery, Key-Conditioned QA and Semi-Structured Extraction from OCR Clinical Reports

MedStruct-S es un nuevo benchmark para la extracción de información semiestructurada de informes clínicos derivados de OCR, abordando desafíos como representaciones de claves heterogéneas y ruido de OCR. Su objetivo es evaluar la robustez del modelo en entornos del mundo real para el descubrimiento de claves, QA condicionado a claves y extracción de pares clave-valor.

27