RESEARCH29

Aligning where to see and what to tell: image caption with region-basedattention and scene factorization

DEV.to AI·6 de junho de 2026

Este trabalho apresenta um método para geração de legendas de imagens, utilizando atenção baseada em regiões e fatoração de cena para melhorar a relevância e a precisão da descrição. O objetivo é alinhar a percepção visual com a narrativa textual de forma mais eficaz.

scene understanding deep learning computer vision attention mechanisms image captioning

Ler original ↗