Key points are not available for this paper at this time.
人間の指示に基づいて画像を編集する方法を提案します:入力画像とモデルに何をすべきかを指示する書面の指示が与えられた場合、我々のモデルはこれらの指示に従って画像を編集します。この問題のためのトレーニングデータを取得するために、我々は二つの大規模な事前学習モデルの知識を組み合わせます—言語モデル(GPT-3)とテキストから画像へのモデル(Stable Diffusion)—して、画像編集の例の大規模データセットを生成します。我々の条件付き拡散モデル、InstructPix2Pixは、生成したデータでトレーニングされ、推論時に実画像とユーザーが書いた指示に一般化します。前向きパスで編集を行い、各例ごとのファインチューニングや逆転を必要としないため、我々のモデルは数秒で画像を迅速に編集します。多様な入力画像と書面指示に対する魅力的な編集結果を示します。
Brooks et al. (Thu,) はこの質問を研究しました。