March 25, 2024Open Access

आइसोलेटेड डिफ्यूजन: मल्टी-कॉन्सेप्ट टेक्स्ट-टू-इमेज जेनरेशन को अनुकूलित करना आइसोलेटेड डिफ्यूजन गाइडेंस के साथ बिना प्रशिक्षण के

Key Points

Key points are not available for this paper at this time.

Abstract

बड़े पैमाने पर टेक्स्ट-टू-इमेज डिफ्यूजन मॉडल लक्षित टेक्स्ट प्रॉम्प्ट देने पर उच्च गुणवत्ता और विविध छवियों का सृजन करने में बड़ी सफलता प्राप्त कर चुके हैं। क्रांतिकारी छवि निर्माण क्षमता के बावजूद, वर्तमान सर्वश्रेष्ठ मॉडल कई मामलों में बहु-धारणा निर्माण को सटीक रूप से संभालने में अभी भी संघर्ष करते हैं। इस घटना को "कॉन्सेप्ट ब्लीडिंग" कहा जाता है और यह विभिन्न अवधारणाओं के अप्रत्याशित ओवरलैपिंग या मेलजोल के रूप में प्रकट होती है। यह पेपर टेक्स्ट-टू-इमेज डिफ्यूजन मॉडलों के लिए एक सामान्य दृष्टिकोण प्रस्तुत करता है ताकि जटिल दृश्यों में विभिन्न विषयों और उनके संलग्नों के बीच पारस्परिक हस्तक्षेप को संबोधित किया जा सके, बेहतर टेक्स्ट-इमेज संगति का लक्ष्य रखते हुए। मुख्य विचार विभिन्न अवधारणाओं की संश्लेषण प्रक्रियाओं को पृथक करने का है। हम प्रत्येक संलग्न को संबंधित विषयों से अलग-अलग बांधने का प्रस्ताव करते हैं, विभाजित टेक्स्ट प्रॉम्प्ट्स के साथ। इसके अलावा, हम बहु-विषय संश्लेषण में कॉन्सेप्ट ब्लीडिंग समस्या को ठीक करने के लिए एक संशोधन विधि प्रस्तुत करते हैं। पहले हम पूर्व-प्रशिक्षित वस्तु पहचान और सेगमेंटेशन मॉडल्स पर निर्भर करते हैं ताकि विषयों के लेआउट प्राप्त किए जा सकें। फिर हम पारस्परिक हस्तक्षेप से बचने के लिए प्रत्येक विषय को संबंधित टेक्स्ट प्रॉम्प्ट्स के साथ व्यक्तिगत रूप से पृथक करके पुनः संश्लेषित करते हैं। कुल मिलाकर, हम एक बिना प्रशिक्षण की रणनीति, जिसे आइसोलेटेड डिफ्यूजन कहा जाता है, प्रस्तुत करते हैं जो मल्टी-कॉन्सेप्ट टेक्स्ट-टू-इमेज संश्लेषण को अनुकूलित करती है। यह नवीनतम Stable Diffusion XL (SDXL) और पूर्व Stable Diffusion (SD) मॉडलों के साथ संगत है। हम विभिन्न मल्टी-कॉन्सेप्ट टेक्स्ट प्रॉम्प्ट्स का उपयोग करके हमारी पद्धति की तुलना वैकल्पिक तरीकों से करते हैं और टेक्स्ट-इमेज संगति तथा उपयोगकर्ता अध्ययन में इसके स्पष्ट लाभों को प्रदर्शित करते हैं।

Read Full Paperexternally

AI से पूछें

Bookmark

View Full Paper