Key points are not available for this paper at this time.
テキストから画像への拡散モデルは、テキスト入力から自然な画像を生成する上で重要な進展を遂げており、複雑な視覚-意味的関係を学び表現する能力を示しています。これらの拡散モデルは顕著な成功を収めていますが、その性能を支える基盤となるメカニズムはまだ完全には説明されておらず、彼らが何を学び、どのように視覚-意味的関係を表現し、なぜ時々一般化に失敗するのかについて多くの未解決の質問があります。我々の研究は、入力テキストプロンプトをその基本的な構成要素に分解する情報理論的原則を適用する新しい手法、Diffusion Partial Information Decomposition(DiffusionPID)を提示します。これにより、個々のトークンとその相互作用が生成される画像にどのように影響を与えるかを詳細に検討することが可能になります。我々は、画像及びピクセルレベルでディノイズモデルにPIDを適用することにより、ユニークさ、冗長性、相乗効果を分析するための正式なアプローチを導入します。このアプローチにより、個々のトークンとその相互作用がモデル出力にどのように影響を与えるかを特性づけることができます。まず、我々はモデルが特定の概念を独自に特定するために利用する特性の詳細な分析を提示し、次にバイアス分析に我々のアプローチを適用し、性別や人種のバイアスを回復できることを示します。最後に、我々の手法を用いて、モデルの視点から単語のあいまいさと類似性を視覚的に特性づけ、プロンプト干渉のための手法の有効性を示します。我々の結果は、PIDがテキストから画像へ拡散モデルを評価し診断するための強力なツールであることを示しています。
Dewan et al. (Fri,)はこの問題を研究しました.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: