मल्टीमॉडल रिकमेंडेशन ने उत्पाद छवियाँ और टेक्स्टुअल विवरण जैसी समृद्ध सामग्री जानकारी शामिल करके कोल्ड-स्टार्ट और विरलता समस्याओं को कम करने के लिए सहयोगात्मक फ़िल्टरिंग में एक आशाजनक समाधान के रूप में उभरा है। हालांकि, विषम मोडैलिटी को एकीकृत रिकमेंडेशन फ़्रेमवर्क में प्रभावी ढंग से सम्मिलित करना अभी भी एक चुनौती है। मौजूदा दृष्टिकोण अक्सर स्थिर फ्यूज़न रणनीतियों या जटिल संरचनाओं पर निर्भर करते हैं, जो मोडैलिटी गुणवत्ता में भिन्नता के अनुकूल नहीं हो पाते या गैरजरूरी कम्प्यूटेशनल ओवरहेड उत्पन्न कर सकते हैं। इस कार्य में, हम RLMultimodalRec प्रस्तावित करते हैं, जो एक हल्का और मॉड्यूलर रिकमेंडेशन फ़्रेमवर्क है जो ग्राफ़-आधारित उपयोगकर्ता मॉडलिंग को अनुकूलनशील मल्टीमॉडल आइटम एन्कोडिंग के साथ जोड़ता है। मॉडल एक गेटेड फ्यूज़न मॉड्यूल का उपयोग करता है जो दृश्य और टेक्स्टुअल मोडैलिटी के योगदान को गतिशील रूप से संतुलित करता है, जिससे सूक्ष्म और सामग्री-सचेत आइटम प्रस्तुतियाँ संभव होती हैं। इस बीच, दो-परत LightGCN एन्कोडर गैर-रेखीय रूपांतरणों पर निर्भर हुए बिना उपयोगकर्ता-आइटम इंटरैक्शन ग्राफ़ पर एम्बेडिंग्स फैलाकर उच्च-क्रम सहयोगात्मक संकेतों को पकड़ता है। हमने अपने मॉडल का मूल्यांकन Amazon उत्पाद डोमेन के एक वास्तविक-वर्ल्ड डेटासेट पर किया। प्रायोगिक परिणाम दिखाते हैं कि RLMultimodalRec कई प्रतिस्पर्धी बेसलाइनों पर लगातार बेहतर प्रदर्शन करता है, जिनमें सहयोगात्मक फ़िल्टरिंग, दृश्य-चेतन, और मल्टीमॉडल GNN-आधारित विधियाँ शामिल हैं। प्रस्तावित दृष्टिकोण टॉप-K रिकमेंडेशन मेट्रिक्स में महत्वपूर्ण सुधार प्राप्त करता है जबकि स्केलेबिलिटी और व्याख्यात्मकता बनाए रखता है, जिससे यह व्यावहारिक उपयोग के लिए उपयुक्त बनता है।
Liu et al. (Fri,) ने इस प्रश्न का अध्ययन किया।