Key points are not available for this paper at this time.
पार्श्विक मॉडलों का उपयोग करके पाठ से चित्र निर्माण में हाल की प्रगति ने उत्पन्न छवियों की गुणवत्ता में महत्वपूर्ण सुधार किया है और विभिन्न वस्तुओं को चित्रित करने की क्षमता का विस्तार किया है। हालाँकि, यह सुनिश्चित करना कि ये मॉडल पाठ प्रॉम्प्ट के निकटता से पालन करते हैं, एक considerable चुनौती बनी हुई है। यह समस्या विशेष रूप से मानवों की फोटो-यथार्थवादी छवियों को उत्पन्न करने की कोशिश करते समय स्पष्ट होती है। महत्वपूर्ण प्रॉम्प्ट इंजीनियरिंग प्रयासों के बिना, मॉडल अक्सर अवास्तविक छवियाँ उत्पन्न करते हैं और सामान्यतः प्रॉम्प्ट की पूरी जानकारी शामिल करने में विफल रहते हैं। यह सीमा मुख्य रूप से उन छवियों के साथ जोड़ी गई कैप्शन की प्रकृति के कारण होती है जो बड़े पैमाने पर पार्श्विक मॉडलों के प्रशिक्षण में उपयोग होती हैं, जो आमतौर पर व्यक्ति की उपस्थिति से संबंधित विवरणों की अपेक्षा संदर्भात्मक जानकारी को प्राथमिकता देती हैं। इस पत्र में, हम इस समस्या को एक प्रशिक्षण-मुक्त पाइपलाइन पेश करके संबोधित करते हैं जिसे लोगों की छवियों से सटीक उपस्थिति विवरण उत्पन्न करने के लिए डिज़ाइन किया गया है। हम इस विधि का उपयोग सार्वजनिक रूप से उपलब्ध चेहरे के डेटा सेट के लिए लगभग 250,000 कैप्शन बनाने के लिए करते हैं। फिर हम इन सिंथेटिक कैप्शन का उपयोग एक पाठ-से-चित्र पार्श्विक मॉडल को ठीक करने के लिए करते हैं। हमारे परिणाम दर्शाते हैं कि यह दृष्टिकोण मॉडल की उच्च गुणवत्ता, यथार्थवादी मानव चेहरों को उत्पन्न करने की क्षमता को महत्वपूर्ण रूप से सुधारता है और दिए गए प्रॉम्प्ट के प्रति समर्पण बढ़ाता है, बेसलाइन मॉडल की तुलना में। हम अपने सिंथेटिक कैप्शन, प्रीट्रेंड चेकपॉइंट और प्रशिक्षण कोड साझा करते हैं।
तरासियू एट अल। (शुक्र,) ने इस प्रश्न का अध्ययन किया।
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: