制御可能な画像構造編集は、ますます注目を集めています。最近のインタラクティブなポイントベースの手法は便利でリアルですが、局所的なコンテンツに対する細かい制御が不足することがよくあります。部分スケッチは、局所構造の操作に対するシンプルでありながら表現力のあるインターフェースを提供します。しかし、生成対抗ネットワーク(GAN)に依存する既存の部分スケッチに基づく操作手法は、一般化能力と忠実度が限られています。さらに、拡散ベースのアダプターはグローバル条件付け(例:エッジマップ)に優れていますが、部分的なストロークによる局所編集は、デノイジング中のスパースストローク条件の効果的な注入と、意図しない変化を避けるための非編集領域の保護という2つの主要な問題により、依然として困難です。これらの課題に対処するために、私たちはDiffStrokeを提案します。これは、部分スケッチを使用した局所画像操作のためのマスクフリーのフレームワークです。私たちは、ソース画像とストロークを特徴レベルで融合させるための学習可能な画像-ストローク融合(ISF)ブロックを導入し、外観の一貫性を維持しながら正確な局所形状制御を可能にします。さらに、手動の入力なしで無関係な領域を保護するための自己教師ありマスク推定器を開発します。具体的には、Tweedieの公式を利用して、ノイズのある潜在変数からクリーンな潜在画像を推定し、デノイズされた結果をソースとブレンドし、ブレンドされた潜在とターゲット潜在との誤差を最小化することによってマスク推定器を訓練します。自然画像および顔画像に関する実験では、DiffStrokeがシンプルおよび複雑なストロークベースの編集タスクの両方において最先端の手法を上回ることを示しました。DiffStrokeは、テキストプロンプトと組み合わせることで多様で創造的な結果を生成することもできます。コードは https://github.com/CMACH508/DiffStroke で入手可能です。
Li et al.(Thu、)はこの問題を研究しました。
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: