RESEARCHDEV.to AI·il y a 3j
Aligning where to see and what to tell: image caption with region-basedattention and scene factorization
Ce travail présente une méthode de génération de légendes d'images, utilisant l'attention basée sur les régions et la factorisation de scène pour améliorer la pertinence et la précision descriptive. Il vise à aligner plus efficacement la perception visuelle avec la narration textuelle.
29