What question did this study set out to answer?

यह समीक्षा बहु-मोडल AI में दृष्टि-भाषा मॉडलों की वास्तुकला विकास और क्षमताओं को संकुचित करने का उद्देश्य रखती है।

March 8, 2026Open Access

विज़न-भाषा मॉडलों का एक व्यवस्थित समीक्षा: वास्तुकला, अनुप्रयोगों, डेटा सेटों और मजबूत बहु-मोडल बुद्धिमत्ता की चुनौतियों का व्यापक विश्लेषण

Key Points

यह समीक्षा बहु-मोडल AI में दृष्टि-भाषा मॉडलों की वास्तुकला विकास और क्षमताओं को संकुचित करने का उद्देश्य रखती है।
PRISMA दिशानिर्देशों का पालन करते हुए व्यवस्थित समीक्षा
सात डिजिटल पुस्तकालयों से 928 रिकॉर्ड का विश्लेषण, 48 लेखों को बनाए रखना
बहु-उद्देश्य एकीकरण ढांचे को मान्य करते हुए एबलेशन अध्ययन
LLaVA-1.5 के लिए बिना विरोधाभासी पूर्व-प्रशिक्षण के ScienceQA पर 31.7% सटीकता में गिरावट
MedVLM-R1 के लिए GRPO अक्षम होने पर MIMIC-CXR पर नैदानिक रिपोर्ट सटीकता में 18.2% की कमी
वास्तुशिल्प बाधाओं के कारण GQA और Winoground जैसे बेंचमार्क पर 40 से 65% के बीच प्रदर्शन की कमी देखी गई।

Abstract

विज़न-भाषा मॉडल ने बहु-मोडल कृत्रिम बुद्धिमत्ता को बदल दिया है, फिर भी उनकी वास्तुशिल्प विकास, प्रशिक्षण सिद्धांतों, और क्षेत्र-विशिष्ट क्षमताओं का एक व्यापक संश्लेषण सीमित है। यह व्यवस्थित समीक्षा, जो PRISMA दिशानिर्देशों के अनुसार की गई है, जनवरी 2021 से दिसंबर 2025 तक के अनुसंधान का विश्लेषण करती है। सात डिजिटल पुस्तकालयों से 928 पहचाने गए रिकॉर्ड में से, 48 लेखों को अंतिम संश्लेषण के लिए रखा गया। यह समीक्षा VLM आर्किटेक्चर की एक एकीकृत वर्गीकरण स्थापित करती है, उन्हें दृष्टि-भाषा की समझ, दृष्टि-स्थिति पाठ निर्माण, और बहु-मोडल-से-बहु-मोडल संश्लेषण सहित प्रमुख कार्यात्मक उद्देश्यों द्वारा वर्गीकृत करती है। इन्हें उनके युग्मन तंत्र के माध्यम से परिभाषित वास्तुकीय परिवारों के साथ व्यवस्थित किया गया है: सममित InfoNCE विरोधाभासी हानि के माध्यम से अनुकूलित द्वैध-कोडर मॉडल; बारीक-ग्राउंडिंग के लिए क्रॉस-ध्यान का उपयोग करने वाले अभिसरण-आधारित ट्रांसफार्मर; दृश्य टोकनों पर प्रीफिक्स भाषा मॉडलिंग का उपयोग करने वाले एकीकृत एकल-धारा मॉडल; और पूर्व-प्रशिक्षित दृष्टि कोडर्स को बड़े भाषा मॉडलों से क्यू-आधारित एडेप्टर जैसे Q-Former और लोरा के माध्यम से कनेक्ट करने वाले मॉड्यूलर पुल प्रणाली। यह अध्ययन बेतरतीब प्रशिक्षण दृष्टिकोणों को एक बहु-उद्देश्य एकीकरण ढांचे में संकुचित करता है, जिसमें विरोधाभासी संरेखण, मास्क किया हुआ भाषा या छवि मॉडलिंग, और समूह संबंधी नीति अनुकूलन (GRPO) के माध्यम से सुदृढीकरण आधारित संरेखण का संयोजन होता है। एबलेशन अध्ययन इस ढांचे को मान्य करते हैं, उदाहरण के लिए, यह दिखाता है कि LLaVA-1.5 के लिए बिना विरोधाभासी पूर्व-प्रशिक्षण के ScienceQA पर 31.7% सटीकता में गिरावट और MedVLM-R1 के लिए GRPO अक्षम होने पर MIMIC-CXR पर नैदानिक रिपोर्ट सटीकता में 18.2% की कमी। यह अध्ययन संयुक्त और कारकित बहु-मोडल प्रतिनिधित्व के बीच KL-भिन्नता के रूप में संयोजनात्मकता अंतर को औपचारिक रूप से परिभाषित करता है। यह निदान मेट्रिक प्रदर्शन की कमी के लिए 40 से 65% के बीच एक गणितीय स्पष्टीकरण प्रदान करता है, जिसे GQA और Winoground जैसे बेंचमार्क पर देखा जाता है, इन विफलताओं को वास्तुकला के फ्यूजन बाधाओं और डेटा सेट पूर्वाग्रहों से जोड़ता है। इसके अलावा, यह अध्ययन विभिन्न ऊर्ध्वाधर अनुप्रयोगों की भी जांच करता है, विशेष रूप से मानक बहु-मोडल इंटरफेस, चिकित्सा छवि-से-पाठ तर्क, भू-स्पatial निगरानी, और VLA रोबोटिक्स का लक्षित करता है। हमने यह निर्धारित करने के लिए इन क्षेत्रों का विश्लेषण किया कि विशिष्ट वास्तुशिल्प कॉन्फ़िगरेशन कैसे विशेषीकृत डेटा सीमाओं के लिए अनुकूलित होते हैं। मूल्यांकन लगातार स्थिरता, व्याख्यात्मकता, भ्रांति नियंत्रण और बाहर के डोमेन सामान्यीकरण में महत्वपूर्ण सीमाओं का खुलासा करता है। अधिकांश अध्ययन प्रयोगशाला पर आधारित रहते हैं, बेंचमार्क प्रदर्शन और वास्तविक दुनिया, सुरक्षा-आधारित तैनाती के बीच एक महत्वपूर्ण गैप को उजागर करते हैं। समीक्षा आवश्यक अनुसंधान दिशाओं का चार्ट बनाकर समाप्त होती है: संयोजनात्मकता अंतर को बंद करने के लिए तंत्रिका-प्रतीकात्मक और विशेषज्ञों के मिश्रण आर्किटेक्चर को आगे बढ़ाना; स्थान-कालिक और बहु-भाषाई ग्राउंडिंग का विकास; गोपनीयता-जानकारी वाले संघीय बहु-मोडल शिक्षा को लागू करना; और निरंतरता और सुरक्षा के लिए सख्त मूल्यांकन प्रोटोकॉल बनाना। यह संश्लेषण robust, वातावरणीय और विश्वसनीय अगली पीढ़ी के बहु-मोडल सिस्टम के विकास के लिए एक मौलिक संदर्भ प्रदान करता है।

Key Points

Abstract

Cite This Study

Also Consider

Also Consider