विज़न-भाषा मॉडल ने बहु-मोडल कृत्रिम बुद्धिमत्ता को बदल दिया है, फिर भी उनकी वास्तुशिल्प विकास, प्रशिक्षण सिद्धांतों, और क्षेत्र-विशिष्ट क्षमताओं का एक व्यापक संश्लेषण सीमित है। यह व्यवस्थित समीक्षा, जो PRISMA दिशानिर्देशों के अनुसार की गई है, जनवरी 2021 से दिसंबर 2025 तक के अनुसंधान का विश्लेषण करती है। सात डिजिटल पुस्तकालयों से 928 पहचाने गए रिकॉर्ड में से, 48 लेखों को अंतिम संश्लेषण के लिए रखा गया। यह समीक्षा VLM आर्किटेक्चर की एक एकीकृत वर्गीकरण स्थापित करती है, उन्हें दृष्टि-भाषा की समझ, दृष्टि-स्थिति पाठ निर्माण, और बहु-मोडल-से-बहु-मोडल संश्लेषण सहित प्रमुख कार्यात्मक उद्देश्यों द्वारा वर्गीकृत करती है। इन्हें उनके युग्मन तंत्र के माध्यम से परिभाषित वास्तुकीय परिवारों के साथ व्यवस्थित किया गया है: सममित InfoNCE विरोधाभासी हानि के माध्यम से अनुकूलित द्वैध-कोडर मॉडल; बारीक-ग्राउंडिंग के लिए क्रॉस-ध्यान का उपयोग करने वाले अभिसरण-आधारित ट्रांसफार्मर; दृश्य टोकनों पर प्रीफिक्स भाषा मॉडलिंग का उपयोग करने वाले एकीकृत एकल-धारा मॉडल; और पूर्व-प्रशिक्षित दृष्टि कोडर्स को बड़े भाषा मॉडलों से क्यू-आधारित एडेप्टर जैसे Q-Former और लोरा के माध्यम से कनेक्ट करने वाले मॉड्यूलर पुल प्रणाली। यह अध्ययन बेतरतीब प्रशिक्षण दृष्टिकोणों को एक बहु-उद्देश्य एकीकरण ढांचे में संकुचित करता है, जिसमें विरोधाभासी संरेखण, मास्क किया हुआ भाषा या छवि मॉडलिंग, और समूह संबंधी नीति अनुकूलन (GRPO) के माध्यम से सुदृढीकरण आधारित संरेखण का संयोजन होता है। एबलेशन अध्ययन इस ढांचे को मान्य करते हैं, उदाहरण के लिए, यह दिखाता है कि LLaVA-1.5 के लिए बिना विरोधाभासी पूर्व-प्रशिक्षण के ScienceQA पर 31.7% सटीकता में गिरावट और MedVLM-R1 के लिए GRPO अक्षम होने पर MIMIC-CXR पर नैदानिक रिपोर्ट सटीकता में 18.2% की कमी। यह अध्ययन संयुक्त और कारकित बहु-मोडल प्रतिनिधित्व के बीच KL-भिन्नता के रूप में संयोजनात्मकता अंतर को औपचारिक रूप से परिभाषित करता है। यह निदान मेट्रिक प्रदर्शन की कमी के लिए 40 से 65% के बीच एक गणितीय स्पष्टीकरण प्रदान करता है, जिसे GQA और Winoground जैसे बेंचमार्क पर देखा जाता है, इन विफलताओं को वास्तुकला के फ्यूजन बाधाओं और डेटा सेट पूर्वाग्रहों से जोड़ता है। इसके अलावा, यह अध्ययन विभिन्न ऊर्ध्वाधर अनुप्रयोगों की भी जांच करता है, विशेष रूप से मानक बहु-मोडल इंटरफेस, चिकित्सा छवि-से-पाठ तर्क, भू-स्पatial निगरानी, और VLA रोबोटिक्स का लक्षित करता है। हमने यह निर्धारित करने के लिए इन क्षेत्रों का विश्लेषण किया कि विशिष्ट वास्तुशिल्प कॉन्फ़िगरेशन कैसे विशेषीकृत डेटा सीमाओं के लिए अनुकूलित होते हैं। मूल्यांकन लगातार स्थिरता, व्याख्यात्मकता, भ्रांति नियंत्रण और बाहर के डोमेन सामान्यीकरण में महत्वपूर्ण सीमाओं का खुलासा करता है। अधिकांश अध्ययन प्रयोगशाला पर आधारित रहते हैं, बेंचमार्क प्रदर्शन और वास्तविक दुनिया, सुरक्षा-आधारित तैनाती के बीच एक महत्वपूर्ण गैप को उजागर करते हैं। समीक्षा आवश्यक अनुसंधान दिशाओं का चार्ट बनाकर समाप्त होती है: संयोजनात्मकता अंतर को बंद करने के लिए तंत्रिका-प्रतीकात्मक और विशेषज्ञों के मिश्रण आर्किटेक्चर को आगे बढ़ाना; स्थान-कालिक और बहु-भाषाई ग्राउंडिंग का विकास; गोपनीयता-जानकारी वाले संघीय बहु-मोडल शिक्षा को लागू करना; और निरंतरता और सुरक्षा के लिए सख्त मूल्यांकन प्रोटोकॉल बनाना। यह संश्लेषण robust, वातावरणीय और विश्वसनीय अगली पीढ़ी के बहु-मोडल सिस्टम के विकास के लिए एक मौलिक संदर्भ प्रदान करता है।
आरिफुर रहमान (सन,) ने इस प्रश्न का अध्ययन किया।
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: