Key points are not available for this paper at this time.
मल्टी-मोडल बड़े भाषा मॉडल (MLLMs) वर्तमान में मल्टीमीडिया और कंप्यूटर दृष्टि समुदायों के लिए एक अत्यंत सक्रिय अनुसंधान विषय हैं, और दृश्य विश्लेषण और पाठ पीढ़ी कार्यों में महत्वपूर्ण प्रभाव दिखाते हैं। MLLM संपूर्ण समझ, क्रॉस मोडैलिटी (यानी पाठ-चित्र) से जटिल डेटा का विश्लेषण और चैट क्षमताओं के साथ पाठ उत्पन्न करने में अच्छी तरह से प्रशिक्षित होते हैं। लगभग सभी MLLM दृश्य प्रश्न उत्तर देने पर ध्यान केंद्रित करते हैं, जो डाउनस्ट्रीम पाठ उत्पन्न करने के कार्यों में चित्र विशेषताओं को पाठ की विशेषताओं के साथ संरेखित करते हैं, जिसमें विस्तृत चित्र वर्णन, दृश्य प्रश्न उत्तर, कहानियाँ और कविताएँ उत्पन्न करना, वाक्य आधार, आदि शामिल हैं। हालाँकि, जब दृश्य प्रश्न उत्तर देने पर ध्यान केंद्रित किया जाता है, तो एक चित्र के संदर्भ से अत्यधिक प्रासंगिक प्रश्न मौजूदा MLLM के साथ सही ढंग से उत्तर नहीं दिए जा सकते हैं, इसके विपरीत प्रश्न जो दृश्य पहलुओं से संबंधित हैं। इसके अतिरिक्त, वर्तमान दिन MLLM का उपयोग करके चित्र के लिए मेटा डेटा (संदर्भ) उत्पन्न करना एक कठिन कार्य है क्योंकि संदर्भ के प्रकार का विशेषता हॉल्यूसीनेटिंग बड़ी भाषा मॉडल (LLM) का है, और चित्र आधारित परिप्रेक्ष्य से पर्याप्त संदर्भ जानकारी सीधे नहीं निकाली जा सकती है।
Rachabatuni et al. (Mon,) ने इस प्रश्न का अध्ययन किया।
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: