heapsort
ARTICLE↑ trending42

SGOCR: A Spatially-Grounded OCR-focused Pipeline & V1 Dataset [P]

Reddit r/MachineLearning·20. April 2026

Ein unabhängiger Forscher entwickelte SGOCR, eine quelloffene Dataset-Pipeline für räumlich geerdetes, OCR-fokussiertes VQA, um eine Lücke in visuellen Datensätzen für die Textverankerung in Bildern zu schließen. Diese Pipeline generiert VQA-Tupel mit reichhaltigen Metadaten, die diverse VLM-Trainingsstrategien unterstützen.

Original lesen