कंप्यूटेशनल पैथोलॉजी (CPath) में, विज़न-भाषा मॉडल (VLMs) का परिचय अनुसंधान के लिए नए मार्ग खोला है, जो मुख्य रूप से एकल मैग्निफिकेशन स्तर पर चित्र-पाठ जोड़ों को संरेखित करने पर केंद्रित है। हालांकि, यह दृष्टिकोण कैंसर उपप्रकार वर्गीकरण, ऊतक फ़ीनोटाइपिंग, और सर्वाइवल विश्लेषण जैसे कार्यों के लिए पर्याप्त नहीं हो सकता है क्योंकि एकल-रेज़ोल्यूशन चित्र जो विवरण का सीमित स्तर प्रदान कर सकता है। इस समस्या का समाधान करते हुए, हम एक नवीन मल्टी-रेज़ोल्यूशन पैराडाइम का प्रस्ताव करते हैं जो पूरे स्लाइड इमेज (WSIs) का उपयोग करके विभिन्न रे जोज़ोल्यूशन पर हिस्टोलॉजी पैच निकालता है और उन्नत CPath VLM के माध्यम से संबंधित पाठ विवरण उत्पन्न करता है। हम विभिन्न रे जोज़ोल्यूशनों पर दृश्य-पाठ संरेखण के साथ-साथ क्रॉस-रेज़ोल्यूशन संरेखण को प्रस्तुत करते हैं ताकि अधिक प्रभावी टेक्स्ट-गाइडेड विज़ुअल रिप्रेजेंटेशन स्थापित किया जा सके। मल्टी-मोडल एन्कोडर का उपयोग करते हुए क्रॉस-रेज़ोल्यूशन संरेखण मॉडल की क्षमता को विभिन्न रे जोज़ोल्यूशनों में संदर्भ कैप्चर करने में सुधार करता है। हमारा मॉडल अधिक व्यापक जानकारी को कैप्चर करने का लक्ष्य रखता है, नवीन हानि कार्यों द्वारा समर्थित है, फ़ीचर प्रतिनिधित्व को समृद्ध करता है, विभाजन क्षमता में सुधार करता है, और विभिन्न रे जोज़ोल्यूशनों में सामान्यीकरण को बढ़ाता है। 34 मिलियन चित्र-भाषा जोड़ों के साथ एक व्यापक TCGA डेटासेट पर प्री-ट्रेन किया गया, हमारा फाइन-ट्यून किया गया मॉडल विभिन्न डेटासेट और कार्यों में राज्य-ऑफ-द-आर्ट (SOTA) समकक्षों से बेहतर है, जो CPath में इसकी प्रभावशीलता को दर्शाता है। कोड GitHub पर उपलब्ध है: https://github.com/BasitAlawode/MR-PLIP।
Albastaki et al. (मंगल,) ने इस प्रश्न का अध्ययन किया।
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: