SGOCR: A Spatially-Grounded OCR-focused Pipeline & V1 Dataset [P]
Um pesquisador independente criou o SGOCR, um pipeline de dataset de código aberto focado em OCR e VQA com fundamento espacial, para preencher uma lacuna em datasets visuais para fundamentar texto em imagens. Este pipeline gera tuplas VQA com metadados ricos, suportando diversas estratégias de treinamento de VLM.
