मीम्स ऑनलाइन अभिव्यक्ति का एक प्रमुख माध्यम बन गए हैं, जो हास्य, व्यंग्य और सांस्कृतिक टिप्पणियों को दृश्य और टेक्स्टुअल तत्वों के माध्यम से मिलाते हैं। जबकि अक्सर मनोरंजन और समुदाय निर्माण के लिए उपयोग किए जाते हैं, मीम्स नफरत भाषण को सूक्ष्म और अप्रत्यक्ष तरीकों से प्रसारित कर सकते हैं, जिससे स्वचालित पता लगाने में विशेष चुनौती आती है। यह अध्ययन इंडोनेशियाई मल्टीमॉडल मीम डेटासेट (INDOMEME) प्रस्तुत करता है, जो इंडोनेशियाई भाषा में घृणास्पद मीम पहचान के लिए पहला विशेषज्ञ-अनुक्रमित बहु-माध्यम डेटा है। इस डेटासेट में फेसबुक से संग्रहित 5,023 मीम्स शामिल हैं जिन्हें तीन पूरक योजनाओं के अनुसार अनुक्रमित किया गया है: नफरत, उपयुक्तता, और विषयगत फोकस। हर मीम में ऑप्टिकल कैरेक्टर रिकग्निशन (OCR) टेक्स्ट और मशीन-जनित कैप्शन जोड़े गए हैं, जो मल्टीमॉडल विश्लेषण के लिए एक व्यापक संसाधन प्रदान करते हैं। इस डेटासेट का उपयोग करते हुए, अध्ययन चार शोध सवालों का विस्तार से परिक्षण करता है। पहले, एकल-माध्यम मॉडल (केवल टेक्स्ट और केवल चित्र) की तुलना बहु-माध्यम फ्यूज़न मॉडल से की गई, जिससे पता चला कि बहु-माध्यमीय विधियाँ एकल-माध्यम आधाररेखाओं से बेहतर हैं; सबसे अच्छा बहु-माध्यम मॉडल (IndoBERTweet + विजुअल ट्रांसफॉर्मर्स (ViT)) नफरत भाषण पहचान में 0.820 का मैक्रो-F1 और उपयुक्तता वर्गीकरण में 0.809 का मैक्रो-F1 प्राप्त करता है। दूसरे, कई अत्याधुनिक बहु-माध्यम बड़े भाषा मॉडल (MLLMs), जैसे GPT-4o, Gemini 2.5 Flash, और Gemma3 27B, को ज़ीरो-शॉट परिवेशों में मूल्यांकित किया गया, जिसमें GPT-4o ने उपयुक्तता पहचान के लिए 0.772 मैक्रो-F1 हासिल किया, हालांकि MLLMs नफरत वर्गीकरण में पर्यवेक्षित विधियों की तुलना में कम प्रभावी रहे। अंत में, बहु-काम शिक्षण को ड्यूल-हेड आर्किटेक्चर का उपयोग करके उपयुक्तता और नफरत दोनों को संयुक्त रूप से मॉडलिंग करके अन्वेषित किया गया, जिससे केवल टेक्स्ट मॉडल में निरंतर प्रदर्शन सुधार हुए। ये निष्कर्ष इंडोनेशियाई मीम नफरत भाषण पहचान को आगे बढ़ाने में बहु-माध्यम संसाधनों और बहु-काम आर्किटेक्चर के लाभ को रेखांकित करते हैं।
Pamungkas और अन्य (Fri,) ने इस प्रश्न का अध्ययन किया।
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: