← heapsort-ai

OCR

21 items

ARTICLE↑ trendingReddit r/LocalLLaMA·4/22/2026

Local manga translator with LLM build-in, written in Rust with llama.cpp integration

Dieses Projekt ist ein Manga- und Bildübersetzer, geschrieben in Rust, der Objekterkennung, visuelles LLM-basiertes OCR, Layoutanalyse und feinabgestimmte Inpainting-Modelle nutzt. Es integriert llama.cpp zur Unterstützung lokaler LLM-Inferenz mit Modellen wie Gemma und Qwen und bietet eine leistungsstarke und benutzerfreundliche Pipeline.

Local manga translator with LLM build-in, written in Rust with llama.cpp integration
43
RESEARCH↑ trendingReddit r/MachineLearning·4/23/2026

We benchmarked 18 LLMs on OCR (7k+ calls) — cheaper/old models oftentimes win. Full dataset + framework open-sourced. [R]

Forscher haben 18 LLMs für OCR getestet und festgestellt, dass günstigere und ältere Modelle oft die Genauigkeit von Flaggschiff-Modellen zu einem Bruchteil der Kosten erreichen oder übertreffen. Sie haben ihren Datensatz und das Benchmarking-Framework als Open Source veröffentlicht.

43
ARTICLE↑ trendingHacker News (AI)·vor 15T

Show HN: Unsiloed AI – #1 on olmOCR-Bench

Der Unsiloed Parser v3.1 erreichte den ersten Platz im olmOCR-Bench und übertraf damit 18 andere OCR-Dienste, darunter fortgeschrittene KI-Modelle. Die Bewertung, die über 1.403 PDFs und 8.413 Komponententests durchgeführt wurde, zeigte seine Fähigkeit, komplexe reale Dokumentherausforderungen wie komplizierte Tabellen und mehrspaltige Layouts zu bewältigen.

42
ARTICLE↑ trendingReddit r/MachineLearning·4/13/2026

TurboOCR: 270–1200 img/s OCR with Paddle + TensorRT (C++/CUDA, FP16) [P]

TurboOCR erreicht 270–1200 Bilder/s OCR durch Optimierung von PaddleOCR mit C++/CUDA, FP16 TensorRT, Fused Kernels und Batch-Verarbeitung, wodurch die Leistungsengpässe von VLM-basierten Ansätzen behoben werden. Diese Lösung verbessert den Durchsatz für die großflächige Dokumentenverarbeitung drastisch und eignet sich für Echtzeit-RAG-Anwendungen.

42
ARTICLE↑ trendingReddit r/MachineLearning·4/9/2026

Detecting mirrored selfie images: OCR the best way? [D]

O usuário busca um método eficaz para detectar texto invertido em selfies antes de passá-los para modelos de Visão-Linguagem (VLM) ou extratores de embedding facial, que são insensíveis a essa inversão devido ao treinamento com dados aumentados. Sua ideia é usar OCR (EasyOCR) para comparar a pontuação de leitura de texto normal versus espelhado, questionando se esta é a melhor abordagem ou se existe uma solução de modelo menor e mais inteligente.

40
CASE↑ trendingReddit r/MachineLearning·4/10/2026

[D] Large scale OCR [D]

Um usuário busca a forma mais econômica e rápida (1 semana) de realizar OCR em 50 milhões de páginas de documentos legais, focando apenas no texto e sem se preocupar com o layout. Este é um desafio prático de processamento de documentos em larga escala com restrições de tempo e custo.

36
ARTICLEDEV.to AI·4/19/2026

Tại sao OCR đa ngôn ngữ thất bại dù đã mở rộng character set

Viele OCR-Teams gehen davon aus, dass die Erweiterung des Zeichensatzes die Erkennung automatisch verbessert, doch dieser Artikel zeigt, dass dies eine vereinfachte Ansicht ist. Erfolgreiches mehrsprachiges OCR hängt entscheidend vom Training mit Daten ab, die tatsächliche Glyphenformen, Schriftartvariationen, Sprachverteilung und Dokumentenlayouts widerspiegeln.

28
RESEARCHarXiv CS.AI·vor 20T

Operationalizing Document AI: A Microservice Architecture for OCR and LLM Pipelines in Production

Dieser Artikel präsentiert eine Microservice-Architektur zur Operationalisierung von Dokumentenverständigungs-Pipelines, die OCR und große Sprachmodelle für die strukturierte Felderfassung im Produktionsmaßstab kombiniert. Er beschreibt wichtige Designentscheidungen wie asynchrone Verarbeitung und unabhängige Skalierung und weist darauf hin, dass OCR die End-to-End-Latenz dominiert.

27
ARTICLEDEV.to AI·vor 24T

AI-Powered Document OCR for Business: Moving Beyond Simple Text Extraction

Dieser Artikel befasst sich mit fortschrittlicher OCR für Geschäftsunterlagen, die über die einfache Textextraktion hinausgeht, um komplexe Fälle wie handschriftliche Aufzeichnungen und mehrspaltige Layouts zu bewältigen. Er beschreibt die technische Architektur und die Erkenntnisse aus realen Implementierungen, insbesondere in juristischen und notariellen Arbeitsabläufen in Italien.

27
DOCDEV.to AI·5/4/2026

Building AI-Powered Apps for Free in 2026 — The Complete Guide

Dieser umfassende Leitfaden beschreibt, wie man kostenlose KI-gestützte Apps entwickelt, indem man Tools wie Gemini 2.5 Flash, Ollama (lokale LLMs), Apple Vision Framework für OCR und lokale Spracherkennungsmodelle nutzt. Er behandelt verschiedene Optionen, Einschränkungen von kostenlosen Tarifen und Bereitstellungsmuster für Entwickler und warnt auch vor der Datennutzung für Trainingszwecke bei kostenlosen API-Zugängen.

27
RESEARCHarXiv CS.CL·5/6/2026

MedStruct-S: A Benchmark for Key Discovery, Key-Conditioned QA and Semi-Structured Extraction from OCR Clinical Reports

MedStruct-S ist ein neuer Benchmark für die semi-strukturierte Informationsgewinnung aus OCR-abgeleiteten klinischen Berichten, der Herausforderungen wie heterogene Schlüsselrepräsentationen und OCR-Rauschen adressiert. Er zielt darauf ab, die Modellrobustheit in realen Szenarien für die Schlüsselentdeckung, schlüsselkonditionierte QA und die Extraktion von Schlüssel-Wert-Paaren zu bewerten.

27