Aligning where to see and what to tell: image caption with region-basedattention and scene factorization
Diese Arbeit stellt eine Methode zur Bildunterschriftengenerierung vor, die regionenbasierte Aufmerksamkeit und Szenenfaktorisierung nutzt, um die beschreibende Relevanz und Genauigkeit zu verbessern. Ziel ist es, die visuelle Wahrnehmung effektiver mit der textlichen Erzählung abzugleichen.