June 1, 2024Open Access

Générateur de légendes d'images utilisant l'apprentissage profond

Key Points

Key points are not available for this paper at this time.

Abstract

Ce projet présente un générateur de légendes d'images basé sur l'apprentissage profond, fusionnant la vision par ordinateur et le traitement du langage naturel. Tirant parti de réseaux de neurones convolutifs pré-entraînés (CNN) comme InceptionV3 et de réseaux de neurones récurrents (RNN), le modèle extrait des caractéristiques d'images et génère des légendes cohérentes. En utilisant des ensembles de données comme MS COCO, le système est formé pour mapper les caractéristiques d'image aux légendes correspondantes. L'architecture du modèle intègre des embeddings, des couches LSTM et des couches denses, optimisant les paramètres avec une perte d'entropie croisée catégorique pendant l'entraînement. Le modèle résultant peut générer des légendes significatives pour de nouvelles images, montrant la synergie entre la compréhension visuelle et la génération de langage dans le domaine des applications multimédias. Le générateur de légendes d'images proposé montre la fusion des capacités de vision par ordinateur et de traitement du langage naturel. L'utilisation de techniques d'apprentissage profond, en particulier des CNN et RNN pré-entraînés, permet de créer un modèle capable de générer des légendes contextuellement pertinentes pour une large gamme d'images. Ce travail contribue au paysage en évolution des applications multimédias, mettant en évidence le potentiel de l'apprentissage profond dans la compréhension et la génération de descriptions humaines des contenus visuels.

Générateur de légendes d'images utilisant l'apprentissage profond

Key Points

Abstract

Cite This Study

Also Consider

Also Consider