June 19, 2024Open Access

CLIP-Branches : Affinage interactif pour la récupération d'images à partir de texte

Key Points

Key points are not available for this paper at this time.

Abstract

L'avènement des modèles texte-image, notamment CLIP, a profondément transformé le paysage de la recherche d'information. Ces modèles permettent la fusion de diverses modalités, telles que le texte et les images. Un résultat significatif de CLIP est sa capacité à permettre aux utilisateurs de rechercher des images en utilisant le texte comme requête, et vice versa. Cela est réalisé via un encodage joint des données d'images et de texte qui peut, par exemple, être utilisé pour rechercher des éléments similaires. Malgré des techniques de traitement des requêtes efficaces telles que la recherche approximative du plus proche voisin, les résultats peuvent manquer de précision et de complétude. Nous introduisons CLIP-Branches, un moteur de recherche texte-image novateur construit sur l'architecture CLIP. Notre approche améliore les moteurs de recherche texte-image traditionnels en incorporant une phase d'affinage interactif, qui permet à l'utilisateur de concrétiser davantage la requête de recherche en définissant de manière itérative des exemples positifs et négatifs. Notre cadre implique l'entraînement d'un modèle de classification en tenant compte des retours d'utilisateur supplémentaires et produit essentiellement toutes les instances classées positivement de l'ensemble du catalogue de données. En s'appuyant sur des techniques récentes, cette phase d'inférence n'est cependant pas mise en œuvre en scannant l'ensemble du catalogue de données, mais en utilisant des structures d'index efficaces pré-construites pour les données. Nos résultats montrent que les résultats affinés peuvent améliorer les sorties de recherche initiales en termes de pertinence et de précision tout en maintenant des temps de réponse rapides.

Read Full Paperexternally

Demander à l'IA

Bookmark

View Full Paper