June 1, 2019

画像検索のためのテキストと画像の構成 - 実証的なオデッセイ

Key Points

Key points are not available for this paper at this time.

Abstract

本論文では、画像検索のタスクについて研究します。ここでは、入力クエリが画像と、その画像に対する修正を説明するテキストの形で指定されます。例えば、エッフェル塔の画像を提示し、システムに視覚的に似た画像を見つけるように依頼しますが、昼間ではなく夜間に撮影されたように小さな変更が加えられています。このタスクに取り組むために、クエリ（参照画像と修正テキスト）とターゲット（画像）を埋め込みます。画像テキストクエリのエンコーディング関数は、ターゲット画像の表現との類似性が高い場合に限り、「ポジティブマッチ」として学習されます。私たちは、この検索タスクに特化した残差接続を通じて画像とテキストを組み合わせる新しい方法を提案します。この方法は、Fashion-200k、MIT-States、およびCLEVRに基づいて作成した新しい合成データセットの3つの異なるデータセットで、既存のアプローチを上回ることを示します。また、私たちのアプローチは、革新的なラベルによる画像分類を行うために使用でき、MIT-Statesにおけるこのタスクで以前の方法を上回ることを示します。

Bookmark

画像検索のためのテキストと画像の構成 - 実証的なオデッセイ

Key Points

Abstract

Cite This Study

Also Consider

Also Consider