SGOCR: A Spatially-Grounded OCR-focused Pipeline & V1 Dataset [P]
Ein unabhängiger Forscher entwickelte SGOCR, eine quelloffene Dataset-Pipeline für räumlich geerdetes, OCR-fokussiertes VQA, um eine Lücke in visuellen Datensätzen für die Textverankerung in Bildern zu schließen. Diese Pipeline generiert VQA-Tupel mit reichhaltigen Metadaten, die diverse VLM-Trainingsstrategien unterstützen.
