August 19, 2024Open Access

Aprimorando a Geração de Legendas de Imagens Através de um Mecanismo de Atenção Consciente do Contexto

Key Points

Key points are not available for this paper at this time.

Abstract

A geração de legendas de imagens, o processo de gerar descrições em linguagem natural com base no conteúdo da imagem, tem atraído atenção na pesquisa em IA por suas implicações na compreensão de cenas e na interação humano-computador. Embora muitas pesquisas anteriores tenham se concentrado na geração de legendas para o inglês, abordar idiomas de baixo recurso como o bengali apresenta desafios, particularmente na produção de legendas coerentes que liguem objetos visuais a palavras correspondentes. Este artigo propõe um mecanismo de atenção consciente do contexto sobre a atenção semântica para diagnosticar com precisão objetos para a geração de legendas de imagens em bengali. A arquitetura proposta consiste em um bloco de codificador e um bloco de decodificador. Escolhemos ResNet-50 em relação aos outros modelos pré-treinados para codificar as características da imagem devido à sua capacidade de resolver o problema do gradiente desaparecendo e reconhecer características complexas de objetos. Para decodificar as legendas geradas, uma arquitetura bidirecional de Unidade Recorrente Gated (GRU) combinada com um mecanismo de atenção captura dependências contextuais em ambas as direções, resultando em legendas mais precisas. O artigo também destaca o desafio de transferir conhecimento entre domínios, especialmente com imagens culturalmente específicas. A avaliação de três conjuntos de dados de referência em bengali, nomeadamente BAN-Cap, BanglaLekhaImageCaption e Bornon, demonstra uma melhoria significativa no desempenho da pontuação METEOR sobre os métodos existentes de aproximadamente 30%, 18% e 45%, respectivamente. O sistema de geração de legendas de imagens baseado em atenção e consciente do contexto proposto supera significativamente os modelos atuais de ponta na geração de legendas em bengali, apesar das limitações nas legendas de referência em determinados conjuntos de dados.

Read Full Paperexternally

Perguntar à IA

Bookmark

View Full Paper