ARTICLE↑ trending42
SGOCR: A Spatially-Grounded OCR-focused Pipeline & V1 Dataset [P]
Reddit r/MachineLearning·20 de abril de 2026
Um pesquisador independente criou o SGOCR, um pipeline de dataset de código aberto focado em OCR e VQA com fundamento espacial, para preencher uma lacuna em datasets visuais para fundamentar texto em imagens. Este pipeline gera tuplas VQA com metadados ricos, suportando diversas estratégias de treinamento de VLM.
Ler original ↗