May 17, 2024Open Access

सिंथेटिक कैप्शन के साथ चेहरे के निर्माण की गुणवत्ता और प्रॉम्प्ट का पालन बेहतर बनाना

Key Points

Key points are not available for this paper at this time.

Abstract

पार्श्विक मॉडलों का उपयोग करके पाठ से चित्र निर्माण में हाल की प्रगति ने उत्पन्न छवियों की गुणवत्ता में महत्वपूर्ण सुधार किया है और विभिन्न वस्तुओं को चित्रित करने की क्षमता का विस्तार किया है। हालाँकि, यह सुनिश्चित करना कि ये मॉडल पाठ प्रॉम्प्ट के निकटता से पालन करते हैं, एक considerable चुनौती बनी हुई है। यह समस्या विशेष रूप से मानवों की फोटो-यथार्थवादी छवियों को उत्पन्न करने की कोशिश करते समय स्पष्ट होती है। महत्वपूर्ण प्रॉम्प्ट इंजीनियरिंग प्रयासों के बिना, मॉडल अक्सर अवास्तविक छवियाँ उत्पन्न करते हैं और सामान्यतः प्रॉम्प्ट की पूरी जानकारी शामिल करने में विफल रहते हैं। यह सीमा मुख्य रूप से उन छवियों के साथ जोड़ी गई कैप्शन की प्रकृति के कारण होती है जो बड़े पैमाने पर पार्श्विक मॉडलों के प्रशिक्षण में उपयोग होती हैं, जो आमतौर पर व्यक्ति की उपस्थिति से संबंधित विवरणों की अपेक्षा संदर्भात्मक जानकारी को प्राथमिकता देती हैं। इस पत्र में, हम इस समस्या को एक प्रशिक्षण-मुक्त पाइपलाइन पेश करके संबोधित करते हैं जिसे लोगों की छवियों से सटीक उपस्थिति विवरण उत्पन्न करने के लिए डिज़ाइन किया गया है। हम इस विधि का उपयोग सार्वजनिक रूप से उपलब्ध चेहरे के डेटा सेट के लिए लगभग 250,000 कैप्शन बनाने के लिए करते हैं। फिर हम इन सिंथेटिक कैप्शन का उपयोग एक पाठ-से-चित्र पार्श्विक मॉडल को ठीक करने के लिए करते हैं। हमारे परिणाम दर्शाते हैं कि यह दृष्टिकोण मॉडल की उच्च गुणवत्ता, यथार्थवादी मानव चेहरों को उत्पन्न करने की क्षमता को महत्वपूर्ण रूप से सुधारता है और दिए गए प्रॉम्प्ट के प्रति समर्पण बढ़ाता है, बेसलाइन मॉडल की तुलना में। हम अपने सिंथेटिक कैप्शन, प्रीट्रेंड चेकपॉइंट और प्रशिक्षण कोड साझा करते हैं।

सिंथेटिक कैप्शन के साथ चेहरे के निर्माण की गुणवत्ता और प्रॉम्प्ट का पालन बेहतर बनाना

Key Points

Abstract

Cite This Study

Also Consider

Also Consider