RESEARCH29
Aligning where to see and what to tell: image caption with region-basedattention and scene factorization
DEV.to AI·6 de junho de 2026
Este trabalho apresenta um método para geração de legendas de imagens, utilizando atenção baseada em regiões e fatoração de cena para melhorar a relevância e a precisão da descrição. O objetivo é alinhar a percepção visual com a narrativa textual de forma mais eficaz.
Ler original ↗