Key points are not available for this paper at this time.
本論文では、画像検索のタスクについて研究します。ここでは、入力クエリが画像と、その画像に対する修正を説明するテキストの形で指定されます。例えば、エッフェル塔の画像を提示し、システムに視覚的に似た画像を見つけるように依頼しますが、昼間ではなく夜間に撮影されたように小さな変更が加えられています。このタスクに取り組むために、クエリ(参照画像と修正テキスト)とターゲット(画像)を埋め込みます。画像テキストクエリのエンコーディング関数は、ターゲット画像の表現との類似性が高い場合に限り、「ポジティブマッチ」として学習されます。私たちは、この検索タスクに特化した残差接続を通じて画像とテキストを組み合わせる新しい方法を提案します。この方法は、Fashion-200k、MIT-States、およびCLEVRに基づいて作成した新しい合成データセットの3つの異なるデータセットで、既存のアプローチを上回ることを示します。また、私たちのアプローチは、革新的なラベルによる画像分類を行うために使用でき、MIT-Statesにおけるこのタスクで以前の方法を上回ることを示します。
Vo et al. (Sat,) はこの問題を研究しました。
Synapse has enriched 4 closely related papers on similar clinical questions. Consider them for comparative context: