ARTICLE↑ trending42

SGOCR: A Spatially-Grounded OCR-focused Pipeline & V1 Dataset [P]

Reddit r/MachineLearning·20 de abril de 2026

Um pesquisador independente criou o SGOCR, um pipeline de dataset de código aberto focado em OCR e VQA com fundamento espacial, para preencher uma lacuna em datasets visuais para fundamentar texto em imagens. Este pipeline gera tuplas VQA com metadados ricos, suportando diversas estratégias de treinamento de VLM.

Open Source Vision-Language Models datasets OCR AI Research

Ler original ↗