OCR

21 items

ARTICLE↑ trendingReddit r/LocalLLaMA·22/4/2026

Local manga translator with LLM build-in, written in Rust with llama.cpp integration

Este proyecto es un traductor de manga e imágenes, desarrollado en Rust, que utiliza detección de objetos, OCR visual basado en LLM, análisis de diseño y modelos de inpainting. Integra llama.cpp para soportar la inferencia local de LLM con modelos como Gemma y Qwen, ofreciendo una solución de pipeline eficiente y fácil de usar.

Open Source Image processing Rust OCR

Local manga translator with LLM build-in, written in Rust with llama.cpp integration

RESEARCH↑ trendingReddit r/MachineLearning·23/4/2026

We benchmarked 18 LLMs on OCR (7k+ calls) — cheaper/old models oftentimes win. Full dataset + framework open-sourced. [R]

Investigadores realizaron un benchmark de 18 LLMs para OCR, descubriendo que los modelos más baratos y antiguos a menudo igualan o superan la precisión de los modelos insignia a una fracción del costo. Han hecho de código abierto su conjunto de datos y framework de benchmarking.

Open Source Benchmarking OCR Cost Efficiency

ARTICLE↑ trendingReddit r/MachineLearning·20/4/2026

SGOCR: A Spatially-Grounded OCR-focused Pipeline & V1 Dataset [P]

Un investigador independiente creó SGOCR, una pipeline de dataset de código abierto centrada en OCR y VQA con base espacial, para cubrir una brecha en los datasets visuales para la conexión de texto en imágenes. Esta pipeline genera tuplas VQA con metadatos enriquecidos, soportando diversas estrategias de entrenamiento de VLM.

Open Source Vision-Language Models datasets OCR

ARTICLE↑ trendingHacker News (AI)·hace 15d

Show HN: Unsiloed AI – #1 on olmOCR-Bench

El Unsiloed Parser v3.1 obtuvo el puesto número 1 en olmOCR-Bench, superando a otros 18 servicios de OCR, incluidos modelos avanzados de IA. La evaluación, realizada en 1.403 PDFs y 8.413 pruebas unitarias, demostró su capacidad para manejar desafíos complejos de documentos del mundo real, como tablas intrincadas y diseños de varias columnas.

AI benchmark evaluation document parsing UnSiloed

ARTICLE↑ trendingReddit r/MachineLearning·hace 18d

NuExtract3 released: open-weight 4B VLM for Markdown, OCR and structured extraction (self-hostable) [P]

Numind ha lanzado NuExtract3, un VLM de código abierto de 4B basado en Qwen3.5-4B bajo licencia Apache-2.0. Su objetivo es hacer más práctica y accesible la extracción de información de documentos complejos como PDF y formularios.

VLM Data Extraction AI model Open-weight

NuExtract3 released: open-weight 4B VLM for Markdown, OCR and structured extraction (self-hostable) [P]

ARTICLE↑ trendingReddit r/MachineLearning·13/4/2026

TurboOCR: 270–1200 img/s OCR with Paddle + TensorRT (C++/CUDA, FP16) [P]

TurboOCR logra entre 270 y 1200 img/s de OCR optimizando PaddleOCR con C++/CUDA, TensorRT FP16, kernels fusionados y procesamiento por lotes, abordando los cuellos de botella de rendimiento de los enfoques basados en VLM. Esta solución mejora drásticamente el rendimiento para el procesamiento de documentos a gran escala y es adecuada para aplicaciones RAG en tiempo real.

CUDA Performance optimization TensorRT C++

ARTICLE↑ trendingReddit r/MachineLearning·9/4/2026

Detecting mirrored selfie images: OCR the best way? [D]

O usuário busca um método eficaz para detectar texto invertido em selfies antes de passá-los para modelos de Visão-Linguagem (VLM) ou extratores de embedding facial, que são insensíveis a essa inversão devido ao treinamento com dados aumentados. Sua ideia é usar OCR (EasyOCR) para comparar a pontuação de leitura de texto normal versus espelhado, questionando se esta é a melhor abordagem ou se existe uma solução de modelo menor e mais inteligente.

AI models Image processing Vision-Language Models computer vision

CASE↑ trendingReddit r/MachineLearning·10/4/2026

[D] Large scale OCR [D]

Um usuário busca a forma mais econômica e rápida (1 semana) de realizar OCR em 50 milhões de páginas de documentos legais, focando apenas no texto e sem se preocupar com o layout. Este é um desafio prático de processamento de documentos em larga escala com restrições de tempo e custo.

cost-effective document processing large-scale legal tech

ARTICLEDEV.to AI·19/4/2026

Tại sao OCR đa ngôn ngữ thất bại dù đã mở rộng character set

Muchos equipos de OCR asumen que expandir el conjunto de caracteres mejora automáticamente el reconocimiento, pero este artículo revela que es una visión simplificada. El éxito del OCR multilingüe depende críticamente del entrenamiento con datos que reflejen formas de glifos reales, variaciones de fuentes, distribución de idiomas y diseños de documentos.

Multilingual AI AI development challenges OCR

DOCDEV.to AI·hace 10d

The Developer’s Guide to Translating Foreign PDFs (Text, OCR, and AI Workflows)

Esta guía para desarrolladores explica cómo optimizar la traducción de PDFs extranjeros, diferenciando documentos con capa de texto de imágenes rasterizadas. Recomienda el uso de OCR para PDFs escaneados y LLMs como ChatGPT para traducir texto seleccionable, preservando la estructura.

PDF Translation development AI

RESEARCHarXiv CS.AI·hace 20d

Operationalizing Document AI: A Microservice Architecture for OCR and LLM Pipelines in Production

Este artículo presenta una arquitectura de microservicios para la operacionalización de pipelines de comprensión de documentos, combinando OCR y Modelos de Lenguaje Grandes para la extracción de campos estructurados a escala de producción. Detalla decisiones clave de diseño, como el procesamiento asincrónico y la escalabilidad independiente, destacando el dominio del OCR en la latencia de extremo a extremo.

microservices production Document AI OCR

ARTICLEDEV.to AI·hace 24d

AI-Powered Document OCR for Business: Moving Beyond Simple Text Extraction

Este artículo explora el OCR avanzado para documentos comerciales, yendo más allá de la extracción de texto simple para manejar casos complejos como registros manuscritos y diseños de varias columnas. Detalla la arquitectura técnica y las lecciones aprendidas de implementaciones reales, especialmente en flujos de trabajo legales y notariales en Italia.

business automation document processing AI legal tech

ARTICLEDEV.to AI·6/5/2026

Turn any document into actionable text with AI-powered OCR

DocuMonk es una herramienta gratuita que convierte documentos en texto procesable mediante OCR y análisis de IA. Ofrece extracción instantánea de texto, análisis de documentos con IA, extracción de datos estructurados, corrección de texto y traducción multilingüe.

Translation Data Extraction AI tools document processing

ARTICLEHugging Face Blog·17/4/2026

Building a Fast Multilingual OCR Model with Synthetic Data

Este contenido trata sobre la construcción de un modelo de Reconocimiento Óptico de Caracteres (OCR) rápido y multilingüe. La metodología propuesta utiliza datos sintéticos para el entrenamiento y la optimización del modelo.

synthetic data Multilingual AI machine learning OCR

CASEDEV.to AI·25/4/2026

I Built an AI Receipt Scanner That Tracks Your Spending (FastAPI + Amazon Textract)

El autor desarrolló un escáner de recibos con IA, SnapReceipt, para automatizar el seguimiento de gastos. Utiliza Amazon Textract para extraer información detallada de fotos de recibos, resolviendo el problema de la entrada manual de datos y los gastos olvidados.

machine learning personal finance AI automation

DOCHugging Face Blog·hace 22d

PaddleOCR 3.5: Running OCR and Document Parsing Tasks with a Transformers Backend

PaddleOCR 3.5 permite la ejecución de tareas de OCR y análisis de documentos. Esta versión utiliza un backend basado en Transformers para mejorar el procesamiento.

document parsing PaddleOCR AI OCR

DOCDEV.to AI·4/5/2026

Building AI-Powered Apps for Free in 2026 — The Complete Guide

Esta guía completa detalla cómo construir aplicaciones impulsadas por IA de forma gratuita, utilizando herramientas como Gemini 2.5 Flash, Ollama (LLMs locales), Apple Vision Framework para OCR y modelos locales de voz a texto. Cubre varias opciones, límites de la capa gratuita y patrones de implementación para desarrolladores, además de advertir sobre el uso de datos para entrenamiento en APIs de capa gratuita.

LLMs Speech-to-Text Free Tools OCR

ARTICLEDEV.to AI·hace 7d

How a Scanned PDF Broke My Invoice Agent in Production

Un agente de extracción de facturas con IA falló en producción, interpretando erróneamente montos y fechas de PDFs escaneados. El agente mostró alta confianza a pesar de la entrada degradada, revelando un problema crítico de robustez en un escenario del mundo real.

model robustness invoice automation OCR Data Quality

RESEARCHarXiv CS.CL·6/5/2026

MedStruct-S: A Benchmark for Key Discovery, Key-Conditioned QA and Semi-Structured Extraction from OCR Clinical Reports

MedStruct-S es un nuevo benchmark para la extracción de información semiestructurada de informes clínicos derivados de OCR, abordando desafíos como representaciones de claves heterogéneas y ruido de OCR. Su objetivo es evaluar la robustez del modelo en entornos del mundo real para el descubrimiento de claves, QA condicionado a claves y extracción de pares clave-valor.

Information Extraction clinical reports Benchmarking natural language processing

ARTICLEDEV.to AI·23/4/2026

How Layout-Aware AI Improves Document Extraction Accuracy

La extracción manual de documentos y el OCR tradicional fallan al no comprender la estructura del diseño, lo que provoca errores en documentos complejos. La IA consciente del diseño aborda esto leyendo tanto el texto como la estructura, mejorando la precisión de la extracción y los flujos de trabajo.

Data Extraction layout-aware AI document processing AI