April 15, 2024Open Access

संस्कृति विरासत के लिए MLLMs का उपयोग करते हुए संदर्भ-सजग चैटबॉट

Key Points

Key points are not available for this paper at this time.

Abstract

मल्टी-मोडल बड़े भाषा मॉडल (MLLMs) वर्तमान में मल्टीमीडिया और कंप्यूटर दृष्टि समुदायों के लिए एक अत्यंत सक्रिय अनुसंधान विषय हैं, और दृश्य विश्लेषण और पाठ पीढ़ी कार्यों में महत्वपूर्ण प्रभाव दिखाते हैं। MLLM संपूर्ण समझ, क्रॉस मोडैलिटी (यानी पाठ-चित्र) से जटिल डेटा का विश्लेषण और चैट क्षमताओं के साथ पाठ उत्पन्न करने में अच्छी तरह से प्रशिक्षित होते हैं। लगभग सभी MLLM दृश्य प्रश्न उत्तर देने पर ध्यान केंद्रित करते हैं, जो डाउनस्ट्रीम पाठ उत्पन्न करने के कार्यों में चित्र विशेषताओं को पाठ की विशेषताओं के साथ संरेखित करते हैं, जिसमें विस्तृत चित्र वर्णन, दृश्य प्रश्न उत्तर, कहानियाँ और कविताएँ उत्पन्न करना, वाक्य आधार, आदि शामिल हैं। हालाँकि, जब दृश्य प्रश्न उत्तर देने पर ध्यान केंद्रित किया जाता है, तो एक चित्र के संदर्भ से अत्यधिक प्रासंगिक प्रश्न मौजूदा MLLM के साथ सही ढंग से उत्तर नहीं दिए जा सकते हैं, इसके विपरीत प्रश्न जो दृश्य पहलुओं से संबंधित हैं। इसके अतिरिक्त, वर्तमान दिन MLLM का उपयोग करके चित्र के लिए मेटा डेटा (संदर्भ) उत्पन्न करना एक कठिन कार्य है क्योंकि संदर्भ के प्रकार का विशेषता हॉल्यूसीनेटिंग बड़ी भाषा मॉडल (LLM) का है, और चित्र आधारित परिप्रेक्ष्य से पर्याप्त संदर्भ जानकारी सीधे नहीं निकाली जा सकती है।

Read Full Paperexternally

AI से पूछें

Bookmark

View Full Paper