OCR

21 items

ARTICLE↑ trendingReddit r/LocalLLaMA·22/04/2026

Local manga translator with LLM build-in, written in Rust with llama.cpp integration

Ce projet est un traducteur de mangas et d'images, écrit en Rust, qui utilise la détection d'objets, l'OCR visuel basé sur les LLM, l'analyse de mise en page et des modèles d'inpainting. Il intègre llama.cpp pour le support des LLM locaux comme Gemma et Qwen, offrant un pipeline performant et facile à utiliser.

Open Source Image processing Rust OCR

Local manga translator with LLM build-in, written in Rust with llama.cpp integration

RESEARCH↑ trendingReddit r/MachineLearning·23/04/2026

We benchmarked 18 LLMs on OCR (7k+ calls) — cheaper/old models oftentimes win. Full dataset + framework open-sourced. [R]

Des chercheurs ont comparé 18 LLM pour l'OCR, constatant que les modèles moins chers et plus anciens égalent ou surpassent souvent la précision des modèles phares à une fraction du coût. Ils ont open-sourcé leur ensemble de données et leur framework de benchmarking.

Open Source Benchmarking OCR Cost Efficiency

ARTICLE↑ trendingReddit r/MachineLearning·20/04/2026

SGOCR: A Spatially-Grounded OCR-focused Pipeline & V1 Dataset [P]

Un chercheur indépendant a créé SGOCR, un pipeline de jeu de données open source axé sur l'OCR et le VQA avec ancrage spatial, pour combler une lacune dans les jeux de données visuels pour l'ancrage de texte dans l'imagerie. Ce pipeline génère des tuples VQA avec des métadonnées riches, supportant diverses stratégies d'entraînement de VLM.

Open Source Vision-Language Models datasets OCR

ARTICLE↑ trendingHacker News (AI)·il y a 15j

Show HN: Unsiloed AI – #1 on olmOCR-Bench

Le parseur Unsiloed v3.1 a atteint la première place sur olmOCR-Bench, surpassant 18 autres services OCR, y compris des modèles d'IA avancés. L'évaluation, menée sur 1 403 PDF et 8 413 tests unitaires, a démontré sa capacité à gérer des défis documentaires complexes du monde réel, tels que les tableaux complexes et les mises en page multi-colonnes.

AI benchmark evaluation document parsing UnSiloed

ARTICLE↑ trendingReddit r/MachineLearning·il y a 18j

NuExtract3 released: open-weight 4B VLM for Markdown, OCR and structured extraction (self-hostable) [P]

Numind a lancé NuExtract3, un VLM de 4B en poids ouvert basé sur Qwen3.5-4B sous licence Apache-2.0. Il vise à rendre l'extraction d'informations à partir de documents complexes, tels que des PDF et des formulaires, plus pratique et accessible.

VLM Data Extraction AI model Open-weight

NuExtract3 released: open-weight 4B VLM for Markdown, OCR and structured extraction (self-hostable) [P]

ARTICLE↑ trendingReddit r/MachineLearning·13/04/2026

TurboOCR: 270–1200 img/s OCR with Paddle + TensorRT (C++/CUDA, FP16) [P]

TurboOCR atteint 270 à 1200 images/s en optimisant PaddleOCR avec C++/CUDA, TensorRT FP16, des kernels fusionnés et un traitement par lots, résolvant les goulots d'étranglement de performance des approches basées sur VLM. Cette solution améliore considérablement le débit pour le traitement de documents à grande échelle et convient aux applications RAG en temps réel.

CUDA Performance optimization TensorRT C++

ARTICLE↑ trendingReddit r/MachineLearning·09/04/2026

Detecting mirrored selfie images: OCR the best way? [D]

O usuário busca um método eficaz para detectar texto invertido em selfies antes de passá-los para modelos de Visão-Linguagem (VLM) ou extratores de embedding facial, que são insensíveis a essa inversão devido ao treinamento com dados aumentados. Sua ideia é usar OCR (EasyOCR) para comparar a pontuação de leitura de texto normal versus espelhado, questionando se esta é a melhor abordagem ou se existe uma solução de modelo menor e mais inteligente.

AI models Image processing Vision-Language Models computer vision

CASE↑ trendingReddit r/MachineLearning·10/04/2026

[D] Large scale OCR [D]

Um usuário busca a forma mais econômica e rápida (1 semana) de realizar OCR em 50 milhões de páginas de documentos legais, focando apenas no texto e sem se preocupar com o layout. Este é um desafio prático de processamento de documentos em larga escala com restrições de tempo e custo.

cost-effective document processing large-scale legal tech

ARTICLEDEV.to AI·19/04/2026

Tại sao OCR đa ngôn ngữ thất bại dù đã mở rộng character set

De nombreuses équipes OCR supposent qu'élargir l'ensemble de caractères améliore automatiquement la reconnaissance, mais cet article révèle une vision simplifiée. Le succès de l'OCR multilingue dépend fondamentalement d'un entraînement avec des données reflétant les formes réelles des glyphes, les variations de police, la distribution linguistique et les mises en page des documents.

Multilingual AI AI development challenges OCR

DOCDEV.to AI·il y a 10j

The Developer’s Guide to Translating Foreign PDFs (Text, OCR, and AI Workflows)

Ce guide pour développeurs explique comment optimiser la traduction de PDF étrangers, en distinguant les documents avec couche de texte des images rasterisées. Il recommande l'utilisation de l'OCR pour les PDF scannés et des LLM comme ChatGPT pour la traduction de texte sélectionnable, en préservant la structure.

PDF Translation development AI

RESEARCHarXiv CS.AI·il y a 20j

Operationalizing Document AI: A Microservice Architecture for OCR and LLM Pipelines in Production

Cet article présente une architecture de microservices pour l'opérationnalisation des pipelines de compréhension de documents, combinant l'OCR et les grands modèles de langage pour l'extraction de champs structurés à l'échelle de la production. Il détaille les décisions de conception clés, telles que le traitement asynchrone et la mise à l'échelle indépendante, notant la prédominance de l'OCR dans la latence de bout en bout.

microservices production Document AI OCR

ARTICLEDEV.to AI·il y a 24j

AI-Powered Document OCR for Business: Moving Beyond Simple Text Extraction

Cet article explore l'OCR avancé pour les documents commerciaux, allant au-delà de l'extraction de texte simple pour gérer des cas complexes comme les enregistrements manuscrits et les mises en page multi-colonnes. Il détaille l'architecture technique et les leçons tirées des déploiements réels, notamment dans les flux de travail juridiques et notariaux en Italie.

business automation document processing AI legal tech

ARTICLEDEV.to AI·06/05/2026

Turn any document into actionable text with AI-powered OCR

DocuMonk est un outil gratuit qui transforme les documents en texte exploitable grâce à l'OCR et à l'analyse par IA. Il propose l'extraction instantanée de texte, l'analyse de documents par IA, l'extraction de données structurées, la correction de texte et la traduction multilingue.

Translation Data Extraction AI tools document processing

ARTICLEHugging Face Blog·17/04/2026

Building a Fast Multilingual OCR Model with Synthetic Data

Ce contenu aborde la construction d'un modèle d'OCR (Reconnaissance Optique de Caractères) rapide et multilingue. La méthodologie proposée utilise des données synthétiques pour l'entraînement et l'optimisation du modèle.

synthetic data Multilingual AI machine learning OCR

CASEDEV.to AI·25/04/2026

I Built an AI Receipt Scanner That Tracks Your Spending (FastAPI + Amazon Textract)

L'auteur a développé un scanner de reçus IA, SnapReceipt, pour automatiser le suivi des dépenses. Il utilise Amazon Textract pour extraire des informations détaillées des photos de reçus, résolvant ainsi le problème de la saisie manuelle et des dépenses oubliées.

machine learning personal finance AI automation

DOCHugging Face Blog·il y a 22j

PaddleOCR 3.5: Running OCR and Document Parsing Tasks with a Transformers Backend

PaddleOCR 3.5 permet l'exécution de tâches d'OCR et d'analyse de documents. Cette version tire parti d'un backend Transformers pour améliorer le traitement.

document parsing PaddleOCR AI OCR

DOCDEV.to AI·04/05/2026

Building AI-Powered Apps for Free in 2026 — The Complete Guide

Ce guide complet explique comment créer gratuitement des applications alimentées par l'IA, en utilisant des outils comme Gemini 2.5 Flash, Ollama (LLM locaux), Apple Vision Framework pour l'OCR et des modèles locaux de synthèse vocale. Il couvre diverses options, les limites des niveaux gratuits et les modèles de déploiement pour les développeurs, tout en alertant sur l'utilisation des données pour la formation dans les API gratuites.

LLMs Speech-to-Text Free Tools OCR

ARTICLEDEV.to AI·il y a 7j

How a Scanned PDF Broke My Invoice Agent in Production

Un agent d'extraction de factures IA a échoué en production, interprétant mal les montants et les dates des PDF numérisés. L'agent a montré une grande confiance malgré une entrée dégradée, révélant un problème critique de robustesse dans un scénario réel.

model robustness invoice automation OCR Data Quality

RESEARCHarXiv CS.CL·06/05/2026

MedStruct-S: A Benchmark for Key Discovery, Key-Conditioned QA and Semi-Structured Extraction from OCR Clinical Reports

MedStruct-S est un nouveau benchmark pour l'extraction d'informations semi-structurées à partir de rapports cliniques dérivés de l'OCR, s'attaquant aux défis des représentations de clés hétérogènes et du bruit de l'OCR. Il vise à évaluer la robustesse des modèles dans des scénarios réels pour la découverte de clés, le QA conditionné par les clés et l'extraction de paires clé-valeur.

Information Extraction clinical reports Benchmarking natural language processing

ARTICLEDEV.to AI·23/04/2026

How Layout-Aware AI Improves Document Extraction Accuracy

L'extraction manuelle de documents et l'OCR traditionnel échouent en raison de leur incapacité à comprendre la structure de la mise en page, entraînant des erreurs dans les documents complexes. L'IA consciente de la mise en page résout ce problème en lisant à la fois le texte et la structure, améliorant ainsi la précision de l'extraction et les flux de travail.

Data Extraction layout-aware AI document processing AI