SGOCR: A Spatially-Grounded OCR-focused Pipeline & V1 Dataset [P]
Un chercheur indépendant a créé SGOCR, un pipeline de jeu de données open source axé sur l'OCR et le VQA avec ancrage spatial, pour combler une lacune dans les jeux de données visuels pour l'ancrage de texte dans l'imagerie. Ce pipeline génère des tuples VQA avec des métadonnées riches, supportant diverses stratégies d'entraînement de VLM.
