What question did this study set out to answer?

नए डेटासेट का उपयोग कर इंडोनेशियाई मीम्स में नफ़रत भाषण पहचान के लिए प्रभावी विधियाँ विकसित करना।

April 5, 2026Open Access

मीम्स में नफ़रत को डिकोड करना: कम संसाधन वाले इंडोनेशियाई सोशल मीडिया के लिए बहु-माध्यम और बहु-काम दृष्टिकोण

Key Points

नए डेटासेट का उपयोग कर इंडोनेशियाई मीम्स में नफ़रत भाषण पहचान के लिए प्रभावी विधियाँ विकसित करना।
विशेषज्ञ अनुक्रमण के साथ इंडोनेशियाई मल्टीमॉडल मीम डेटासेट (INDOMEME) प्रस्तुत किया।
5,023 मीम्स को नफ़रत, उपयुक्तता और विषयगत फोकस के आधार पर एकत्रित और अनुक्रमित किया।
नफ़रत भाषण पहचान और उपयुक्तता वर्गीकरण पर प्रदर्शन की तुलना करते हुए एकल-और बहु-माध्यम मॉडल का मूल्यांकन किया।
बेहतर पहचान सटीकता के लिए ड्यूल-हेड आर्किटेक्चर के माध्यम से बहु-काम शिक्षण को लागू किया।
नफ़रत भाषण की पहचान में बहु-माध्यम मॉडलों ने एकल-माध्यम आधाररेखाओं की तुलना में महत्वपूर्ण रूप से बेहतर प्रदर्शन किया।
सबसे अच्छे मॉडल ने नफ़रत भाषण के लिए 0.820 और उपयुक्तता के लिए 0.809 मैक्रो-F1 स्कोर प्राप्त किया।
GPT-4o ने ज़ीरो-शॉट सेटिंग में उपयुक्तता के लिए 0.772 मैक्रो-F1 के साथ अच्छा प्रदर्शन किया, लेकिन नफ़रत वर्गीकरण में संघर्ष किया।
मल्टीटास्क शिक्षण ने केवल टेक्स्ट मॉडल में प्रदर्शन सुधार किया, जो प्रभावी द्वि-काम दृष्टिकोण को दर्शाता है।

Abstract

मीम्स ऑनलाइन अभिव्यक्ति का एक प्रमुख माध्यम बन गए हैं, जो हास्य, व्यंग्य और सांस्कृतिक टिप्पणियों को दृश्य और टेक्स्टुअल तत्वों के माध्यम से मिलाते हैं। जबकि अक्सर मनोरंजन और समुदाय निर्माण के लिए उपयोग किए जाते हैं, मीम्स नफरत भाषण को सूक्ष्म और अप्रत्यक्ष तरीकों से प्रसारित कर सकते हैं, जिससे स्वचालित पता लगाने में विशेष चुनौती आती है। यह अध्ययन इंडोनेशियाई मल्टीमॉडल मीम डेटासेट (INDOMEME) प्रस्तुत करता है, जो इंडोनेशियाई भाषा में घृणास्पद मीम पहचान के लिए पहला विशेषज्ञ-अनुक्रमित बहु-माध्यम डेटा है। इस डेटासेट में फेसबुक से संग्रहित 5,023 मीम्स शामिल हैं जिन्हें तीन पूरक योजनाओं के अनुसार अनुक्रमित किया गया है: नफरत, उपयुक्तता, और विषयगत फोकस। हर मीम में ऑप्टिकल कैरेक्टर रिकग्निशन (OCR) टेक्स्ट और मशीन-जनित कैप्शन जोड़े गए हैं, जो मल्टीमॉडल विश्लेषण के लिए एक व्यापक संसाधन प्रदान करते हैं। इस डेटासेट का उपयोग करते हुए, अध्ययन चार शोध सवालों का विस्तार से परिक्षण करता है। पहले, एकल-माध्यम मॉडल (केवल टेक्स्ट और केवल चित्र) की तुलना बहु-माध्यम फ्यूज़न मॉडल से की गई, जिससे पता चला कि बहु-माध्यमीय विधियाँ एकल-माध्यम आधाररेखाओं से बेहतर हैं; सबसे अच्छा बहु-माध्यम मॉडल (IndoBERTweet + विजुअल ट्रांसफॉर्मर्स (ViT)) नफरत भाषण पहचान में 0.820 का मैक्रो-F1 और उपयुक्तता वर्गीकरण में 0.809 का मैक्रो-F1 प्राप्त करता है। दूसरे, कई अत्याधुनिक बहु-माध्यम बड़े भाषा मॉडल (MLLMs), जैसे GPT-4o, Gemini 2.5 Flash, और Gemma3 27B, को ज़ीरो-शॉट परिवेशों में मूल्यांकित किया गया, जिसमें GPT-4o ने उपयुक्तता पहचान के लिए 0.772 मैक्रो-F1 हासिल किया, हालांकि MLLMs नफरत वर्गीकरण में पर्यवेक्षित विधियों की तुलना में कम प्रभावी रहे। अंत में, बहु-काम शिक्षण को ड्यूल-हेड आर्किटेक्चर का उपयोग करके उपयुक्तता और नफरत दोनों को संयुक्त रूप से मॉडलिंग करके अन्वेषित किया गया, जिससे केवल टेक्स्ट मॉडल में निरंतर प्रदर्शन सुधार हुए। ये निष्कर्ष इंडोनेशियाई मीम नफरत भाषण पहचान को आगे बढ़ाने में बहु-माध्यम संसाधनों और बहु-काम आर्किटेक्चर के लाभ को रेखांकित करते हैं।

AI से पूछें

Bookmark

View Full Paper