ARTICLE↑ trending42
SGOCR: A Spatially-Grounded OCR-focused Pipeline & V1 Dataset [P]
Reddit r/MachineLearning·20 avril 2026
Un chercheur indépendant a créé SGOCR, un pipeline de jeu de données open source axé sur l'OCR et le VQA avec ancrage spatial, pour combler une lacune dans les jeux de données visuels pour l'ancrage de texte dans l'imagerie. Ce pipeline génère des tuples VQA avec des métadonnées riches, supportant diverses stratégies d'entraînement de VLM.
Lire l'original ↗