← heapsort-ai

OCR

21 items

ARTICLE↑ trendingReddit r/MachineLearning·20/04/2026

SGOCR: A Spatially-Grounded OCR-focused Pipeline & V1 Dataset [P]

Un chercheur indépendant a créé SGOCR, un pipeline de jeu de données open source axé sur l'OCR et le VQA avec ancrage spatial, pour combler une lacune dans les jeux de données visuels pour l'ancrage de texte dans l'imagerie. Ce pipeline génère des tuples VQA avec des métadonnées riches, supportant diverses stratégies d'entraînement de VLM.

42
ARTICLE↑ trendingHacker News (AI)·il y a 15j

Show HN: Unsiloed AI – #1 on olmOCR-Bench

Le parseur Unsiloed v3.1 a atteint la première place sur olmOCR-Bench, surpassant 18 autres services OCR, y compris des modèles d'IA avancés. L'évaluation, menée sur 1 403 PDF et 8 413 tests unitaires, a démontré sa capacité à gérer des défis documentaires complexes du monde réel, tels que les tableaux complexes et les mises en page multi-colonnes.

42
ARTICLE↑ trendingReddit r/MachineLearning·13/04/2026

TurboOCR: 270–1200 img/s OCR with Paddle + TensorRT (C++/CUDA, FP16) [P]

TurboOCR atteint 270 à 1200 images/s en optimisant PaddleOCR avec C++/CUDA, TensorRT FP16, des kernels fusionnés et un traitement par lots, résolvant les goulots d'étranglement de performance des approches basées sur VLM. Cette solution améliore considérablement le débit pour le traitement de documents à grande échelle et convient aux applications RAG en temps réel.

42
ARTICLE↑ trendingReddit r/MachineLearning·09/04/2026

Detecting mirrored selfie images: OCR the best way? [D]

O usuário busca um método eficaz para detectar texto invertido em selfies antes de passá-los para modelos de Visão-Linguagem (VLM) ou extratores de embedding facial, que são insensíveis a essa inversão devido ao treinamento com dados aumentados. Sua ideia é usar OCR (EasyOCR) para comparar a pontuação de leitura de texto normal versus espelhado, questionando se esta é a melhor abordagem ou se existe uma solução de modelo menor e mais inteligente.

40
CASE↑ trendingReddit r/MachineLearning·10/04/2026

[D] Large scale OCR [D]

Um usuário busca a forma mais econômica e rápida (1 semana) de realizar OCR em 50 milhões de páginas de documentos legais, focando apenas no texto e sem se preocupar com o layout. Este é um desafio prático de processamento de documentos em larga escala com restrições de tempo e custo.

36
ARTICLEDEV.to AI·19/04/2026

Tại sao OCR đa ngôn ngữ thất bại dù đã mở rộng character set

De nombreuses équipes OCR supposent qu'élargir l'ensemble de caractères améliore automatiquement la reconnaissance, mais cet article révèle une vision simplifiée. Le succès de l'OCR multilingue dépend fondamentalement d'un entraînement avec des données reflétant les formes réelles des glyphes, les variations de police, la distribution linguistique et les mises en page des documents.

28
RESEARCHarXiv CS.AI·il y a 20j

Operationalizing Document AI: A Microservice Architecture for OCR and LLM Pipelines in Production

Cet article présente une architecture de microservices pour l'opérationnalisation des pipelines de compréhension de documents, combinant l'OCR et les grands modèles de langage pour l'extraction de champs structurés à l'échelle de la production. Il détaille les décisions de conception clés, telles que le traitement asynchrone et la mise à l'échelle indépendante, notant la prédominance de l'OCR dans la latence de bout en bout.

27
ARTICLEDEV.to AI·il y a 24j

AI-Powered Document OCR for Business: Moving Beyond Simple Text Extraction

Cet article explore l'OCR avancé pour les documents commerciaux, allant au-delà de l'extraction de texte simple pour gérer des cas complexes comme les enregistrements manuscrits et les mises en page multi-colonnes. Il détaille l'architecture technique et les leçons tirées des déploiements réels, notamment dans les flux de travail juridiques et notariaux en Italie.

27
DOCDEV.to AI·04/05/2026

Building AI-Powered Apps for Free in 2026 — The Complete Guide

Ce guide complet explique comment créer gratuitement des applications alimentées par l'IA, en utilisant des outils comme Gemini 2.5 Flash, Ollama (LLM locaux), Apple Vision Framework pour l'OCR et des modèles locaux de synthèse vocale. Il couvre diverses options, les limites des niveaux gratuits et les modèles de déploiement pour les développeurs, tout en alertant sur l'utilisation des données pour la formation dans les API gratuites.

27
RESEARCHarXiv CS.CL·06/05/2026

MedStruct-S: A Benchmark for Key Discovery, Key-Conditioned QA and Semi-Structured Extraction from OCR Clinical Reports

MedStruct-S est un nouveau benchmark pour l'extraction d'informations semi-structurées à partir de rapports cliniques dérivés de l'OCR, s'attaquant aux défis des représentations de clés hétérogènes et du bruit de l'OCR. Il vise à évaluer la robustesse des modèles dans des scénarios réels pour la découverte de clés, le QA conditionné par les clés et l'extraction de paires clé-valeur.

27
ARTICLEDEV.to AI·23/04/2026

How Layout-Aware AI Improves Document Extraction Accuracy

L'extraction manuelle de documents et l'OCR traditionnel échouent en raison de leur incapacité à comprendre la structure de la mise en page, entraînant des erreurs dans les documents complexes. L'IA consciente de la mise en page résout ce problème en lisant à la fois le texte et la structure, améliorant ainsi la précision de l'extraction et les flux de travail.

26