What question did this study set out to answer?

この研究は、部分スケッチを使用した局所的な画像操作の改善を目的としており、既存の手法の忠実度と一般化の限界に対処します。

April 30, 2026

部分スケッチを用いた画像操作のための拡散モデルの活用

Key Points

この研究は、部分スケッチを使用した局所的な画像操作の改善を目的としており、既存の手法の忠実度と一般化の限界に対処します。
拡散モデルと部分スケッチを用いたマスクフリーの画像操作フレームワークであるDiffStrokeを開発しました。
画像とストロークの特徴レベルでの統合のための学習可能な画像-ストローク融合ブロックを導入しました。
操作中に非編集領域を保護するための自己教師ありマスク推定器を作成しました。
DiffStrokeは、シンプルおよび複雑なストロークベースの編集タスクの両方において最先端の手法を上回りました。
既存のGANベースのアプローチと比較して、画像の忠実度と局所編集の精度が向上しました。
テキストプロンプトとの組み合わせを許可することにより、多様性を示し、創造的な画像生成を実現しました。

Abstract

制御可能な画像構造編集は、ますます注目を集めています。最近のインタラクティブなポイントベースの手法は便利でリアルですが、局所的なコンテンツに対する細かい制御が不足することがよくあります。部分スケッチは、局所構造の操作に対するシンプルでありながら表現力のあるインターフェースを提供します。しかし、生成対抗ネットワーク（GAN）に依存する既存の部分スケッチに基づく操作手法は、一般化能力と忠実度が限られています。さらに、拡散ベースのアダプターはグローバル条件付け（例：エッジマップ）に優れていますが、部分的なストロークによる局所編集は、デノイジング中のスパースストローク条件の効果的な注入と、意図しない変化を避けるための非編集領域の保護という2つの主要な問題により、依然として困難です。これらの課題に対処するために、私たちはDiffStrokeを提案します。これは、部分スケッチを使用した局所画像操作のためのマスクフリーのフレームワークです。私たちは、ソース画像とストロークを特徴レベルで融合させるための学習可能な画像-ストローク融合（ISF）ブロックを導入し、外観の一貫性を維持しながら正確な局所形状制御を可能にします。さらに、手動の入力なしで無関係な領域を保護するための自己教師ありマスク推定器を開発します。具体的には、Tweedieの公式を利用して、ノイズのある潜在変数からクリーンな潜在画像を推定し、デノイズされた結果をソースとブレンドし、ブレンドされた潜在とターゲット潜在との誤差を最小化することによってマスク推定器を訓練します。自然画像および顔画像に関する実験では、DiffStrokeがシンプルおよび複雑なストロークベースの編集タスクの両方において最先端の手法を上回ることを示しました。DiffStrokeは、テキストプロンプトと組み合わせることで多様で創造的な結果を生成することもできます。コードは https://github.com/CMACH508/DiffStroke で入手可能です。

Bookmark

部分スケッチを用いた画像操作のための拡散モデルの活用

Key Points

Abstract

Cite This Study

Also Consider

Also Consider