Key points are not available for this paper at this time.
我々は、CLIPモデルと追加のテキストデータを用いて画像キャプショニングのタスクを考慮し、追加のキャプション付き画像を使用しないアプローチを採用します。我々のアプローチは、CLIPが視覚的およびテキスト的な埋め込みを類似させるように訓練されている事実に依存しています。したがって、CLIPのテキスト埋め込みをテキストに戻す方法を学ぶだけで済み、テキストのみを使用して固定されたCLIPテキストエンコーダーのデコーダーを学ぶことによってこれを実現できます。この直感には埋め込み空間のギャップがあるため、「ほぼ正しい」と主張し、トレーニング中のノイズ注入を通じてこれを修正することを提案します。我々のアプローチの有効性を、スタイル転送を含む4つのベンチマークにおけるSOTAゼロショット画像キャプショニングを示すことで実証します。コード、データ、モデルはhttps://github.com/DavidHuji/CapDecで入手可能です。
Nukrai et al. (Sat,) はこの問題を研究しました。