SGOCR: A Spatially-Grounded OCR-focused Pipeline & V1 Dataset [P]
Un investigador independiente creó SGOCR, una pipeline de dataset de código abierto centrada en OCR y VQA con base espacial, para cubrir una brecha en los datasets visuales para la conexión de texto en imágenes. Esta pipeline genera tuplas VQA con metadatos enriquecidos, soportando diversas estrategias de entrenamiento de VLM.
