heapsort
ARTICLE↑ trending42

SGOCR: A Spatially-Grounded OCR-focused Pipeline & V1 Dataset [P]

Reddit r/MachineLearning·20 de abril de 2026

Un investigador independiente creó SGOCR, una pipeline de dataset de código abierto centrada en OCR y VQA con base espacial, para cubrir una brecha en los datasets visuales para la conexión de texto en imágenes. Esta pipeline genera tuplas VQA con metadatos enriquecidos, soportando diversas estrategias de entrenamiento de VLM.

Leer original