What question did this study set out to answer?

यह अनुसंधान कैंसर वर्गीकरण और ऊतक फ़ीनोटाइपिंग के लिए छवि-पाठ संरेखण को बढ़ाने का उद्देश्य रखता है, मल्टी-रेज़ोल्यूशन विश्लेषण का उपयोग करते हुए।

June 10, 2025

मल्टी-रेज़ोल्यूशन पैथोलॉजी-भाषा प्री-ट्रेनिंग मॉडल विद टेक्स्ट-गाइडेड विज़ुअल रिप्रेजेंटेशन

Key Points

यह अनुसंधान कैंसर वर्गीकरण और ऊतक फ़ीनोटाइपिंग के लिए छवि-पाठ संरेखण को बढ़ाने का उद्देश्य रखता है, मल्टी-रेज़ोल्यूशन विश्लेषण का उपयोग करते हुए।
पूरे स्लाइड इमेज (WSIs) और हिस्टोलॉजी पैच का उपयोग कर एक मल्टी-रेज़ोल्यूशन मॉडल विकसित किया।
एक मल्टी-मोडल एन्कोडर का उपयोग करके दृश्य-पाठ संरेखण और क्रॉस-रेज़ोल्यूशन संरेखण पेश किया।
34 मिलियन चित्र-भाषा जोड़ों के साथ TCGA डेटासेट पर प्री-ट्रेन किया गया और विभिन्न कार्यों पर फाइन-ट्यून किया गया।
मॉडल ने कैंसर उपप्रकार वर्गीकरण में विभिन्न डेटासेट में राज्य-ऑफ-द-आर्ट प्रदर्शन को पीछे छोड़ दिया।
विभिन्न रे जोज़ोल्यूशनों में बेहतर फ़ीचर प्रतिनिधित्व और सामान्यीकरण में सुधार हुआ, जिससे विभाजन क्षमता में वृद्धि हुई।

Abstract

कंप्यूटेशनल पैथोलॉजी (CPath) में, विज़न-भाषा मॉडल (VLMs) का परिचय अनुसंधान के लिए नए मार्ग खोला है, जो मुख्य रूप से एकल मैग्निफिकेशन स्तर पर चित्र-पाठ जोड़ों को संरेखित करने पर केंद्रित है। हालांकि, यह दृष्टिकोण कैंसर उपप्रकार वर्गीकरण, ऊतक फ़ीनोटाइपिंग, और सर्वाइवल विश्लेषण जैसे कार्यों के लिए पर्याप्त नहीं हो सकता है क्योंकि एकल-रेज़ोल्यूशन चित्र जो विवरण का सीमित स्तर प्रदान कर सकता है। इस समस्या का समाधान करते हुए, हम एक नवीन मल्टी-रेज़ोल्यूशन पैराडाइम का प्रस्ताव करते हैं जो पूरे स्लाइड इमेज (WSIs) का उपयोग करके विभिन्न रे जोज़ोल्यूशन पर हिस्टोलॉजी पैच निकालता है और उन्नत CPath VLM के माध्यम से संबंधित पाठ विवरण उत्पन्न करता है। हम विभिन्न रे जोज़ोल्यूशनों पर दृश्य-पाठ संरेखण के साथ-साथ क्रॉस-रेज़ोल्यूशन संरेखण को प्रस्तुत करते हैं ताकि अधिक प्रभावी टेक्स्ट-गाइडेड विज़ुअल रिप्रेजेंटेशन स्थापित किया जा सके। मल्टी-मोडल एन्कोडर का उपयोग करते हुए क्रॉस-रेज़ोल्यूशन संरेखण मॉडल की क्षमता को विभिन्न रे जोज़ोल्यूशनों में संदर्भ कैप्चर करने में सुधार करता है। हमारा मॉडल अधिक व्यापक जानकारी को कैप्चर करने का लक्ष्य रखता है, नवीन हानि कार्यों द्वारा समर्थित है, फ़ीचर प्रतिनिधित्व को समृद्ध करता है, विभाजन क्षमता में सुधार करता है, और विभिन्न रे जोज़ोल्यूशनों में सामान्यीकरण को बढ़ाता है। 34 मिलियन चित्र-भाषा जोड़ों के साथ एक व्यापक TCGA डेटासेट पर प्री-ट्रेन किया गया, हमारा फाइन-ट्यून किया गया मॉडल विभिन्न डेटासेट और कार्यों में राज्य-ऑफ-द-आर्ट (SOTA) समकक्षों से बेहतर है, जो CPath में इसकी प्रभावशीलता को दर्शाता है। कोड GitHub पर उपलब्ध है: https://github.com/BasitAlawode/MR-PLIP।

AI से पूछें

Bookmark