June 1, 2009

कई लेबल भविष्यवाणी के लिए छवि एनोटेशन में कई कर्नेल सहसंबंध मॉडल

Key Points

Key points are not available for this paper at this time.

Abstract

छवि एनोटेशन एक चुनौतीपूर्ण कार्य है जो टेक्स्ट की कुंजी शब्दों को एक छवि के साथ संबंधित करने की अनुमति देता है। इस पत्र में हम कर्नेल मल्टीपल लीनियर रेग्रेसन मॉडल का उपयोग करके छवि एनोटेशन की समस्या को संबोधित करते हैं। मल्टीपल लीनियर रेग्रेसन (MLR) मॉडल एक छवि से छवि शीर्षक को पुनर्निर्माण करता है, जो छवि को किसी अर्थपूर्ण स्थान में रैखिक रूपांतरण करके किया जाता है, और फिर शीर्षक को अर्थपूर्ण स्थान से लेबल स्थान में एक और रैखिक रूपांतरण करके पुनर्प्राप्त किया जाता है। इस मॉडल को इस प्रकार प्रशिक्षित किया जाता है कि मॉडल पैरामीटर पुनर्निर्माण की त्रुटि को सीधे न्यूनतम करते हैं। यह मॉडल कैनोनिकल कोरिलेशन एनालिसिस (CCA) से संबंधित है, जो दोनों छवियों और शीर्षक को अर्थपूर्ण स्थान में मानचित्रित करता है ताकि मानचित्रण की दूरी को न्यूनतम किया जा सके। फिर MLR के लिए कर्नेल ट्रिक का उपयोग किया जाता है जिससे कर्नेल मल्टीपल लीनियर रेग्रेसन मॉडल बनता है। KMLR का समाधान एक सामान्यीकृत विशेष मान समस्या का समाधान है, जो KCCA (कर्नेल कैनोनिकल कोरिलेशन एनालिसिस) से संबंधित है। हम फिर कर्नेल मल्टीपल लीनियर रेग्रेसन और कर्नेल कैनोनिकल कोरिलेशन एनालिसिस मॉडल को कई कर्नेल सेटिंग में विस्तारित करते हैं, ताकि छवियों और शीर्षकों के विभिन्न प्रतिनिधित्व की अनुमति दी जा सके। हम ओलिवा और टॉर्राल्बा (2001) दृश्य पहचान पर मल्टीपल कर्नेल लर्निंग CCA और MLR का उपयोग करके छवि एनोटेशन के परिणाम प्रस्तुत करते हैं जो कर्नेल चयन व्यवहार को दर्शाते हैं।

AI से पूछें

Bookmark