Key points are not available for this paper at this time.
拡散モデルは、テキストから画像への生成で大きな成功を収めてきました。 しかし、複数のオブジェクトや属性の束縛、長い説明を含む複雑で密なプロンプトに対処する際にしばしば課題に直面します。本論文では、LLM(大規模言語モデル)の意味表現を活用することで、テキストから画像への拡散モデルの意味理解能力を向上させるフレームワーク「LLM4GEN」を提案します。テキストから画像モデルの元のテキスト特徴とLLM特徴を組み合わせる特別に設計されたCross-Adapter Module(CAM)を通じて、LLM4GENはさまざまな拡散モデルにプラグアンドプレイコンポーネントとして簡単に組み込むことができ、テキストから画像への生成を改善します。また、複雑で密なプロンプトの意味理解を促進するために、改善された画像説明を持つ100万(M)のテキスト画像ペアから成るLAION精製データセットを開発しました。さらに、テキストから画像への生成タスクの包括的な評価を提供するために、7,000の密なプロンプトを含むDensePromptsを導入します。最近のELLAが必要とする訓練データのわずか10\%で、LLM4GENはSD1.5およびSDXLの意味整合性を大幅に改善し、それぞれT2I-CompBenchでの色の増加が7.69\%と9.60\%を示しました。DensePromptsに関する広範な実験でも、LLM4GENがサンプル品質、画像-テキスト整合性、および人間評価の面で既存の最先端モデルを上回ることを示しました。プロジェクトのウェブサイトはこちらです: magentahttps://xiaobul.github.io/LLM4GEN/
Liu et al. (Sun,) はこの問題を研究しました。