March 3, 2026Open Access

इमोशन रिकग्निशन सिस्टम्स का तुलनात्मक अध्ययन: पारंपरिक दृष्टिकोणों से मल्टीमोडल बड़े भाषा मॉडलों तक

Key Points

भावना पहचान प्रणाली पारंपरिक दृष्टिकोणों से उन्नत मल्टीमोडल बड़े भाषा मॉडलों की ओर परिवर्तित हुई हैं।
विश्लेषण ट्रांसफॉर्मर-आधारित मॉडलों की ताकतों को उजागर करता है, जो विभिन्न परिस्थितियों में भावना पहचान कार्यों में उल्लेखनीय सुधार करते हैं।
मूल्यांकन में डेटासेट की विशेषताओं और मूल्यांकन प्रोटोकॉल की समीक्षा शामिल थी, जो वास्तविक दुनिया के अनुप्रयोगों के लिए उनके प्रभाव पर केंद्रित थी।
अध्ययन मानव–AI इंटरैक्शन और सहायक तकनीकों के लिए विशेष रूप से मजबूत और कुशल प्रणालियों की आवश्यकता पर बल देता है।

Abstract

वीडियो में भावना पहचान (ERV) का उद्देश्य दृश्य, ऑडियो, और संदर्भ संकेतों से मानवीय भावों का अनुमान लगाना है और यह इंटरैक्टिव और बुद्धिमान प्रणालियों के लिए तेजी से महत्वपूर्ण होता जा रहा है। पिछले दशक में, ERV ने हस्तनिर्मित विशेषताओं और कार्य-विशेष डीप लर्निंग मॉडलों से लेकर ट्रांसफॉर्मर-आधारित विज़न–भाषा मॉडलों और मल्टीमोडल बड़े भाषा मॉडलों (MLLMs) की ओर विकास किया है। यह समीक्षा इस विकास का सर्वेक्षण करती है, वास्तविक दुनिया में तैनाती से संबंधित इंजीनियरिंग विचारों पर जोर देती है। हम मल्टीमोडल फ्यूज़न रणनीतियों, डेटासेट की विशेषताओं, और मूल्यांकन प्रोटोकॉल का विश्लेषण करते हैं, जिसमें अप्रतिबंधित परिस्थितियों में स्थिरता, पक्षपात, और एनोटेशन गुणवत्ता की सीमाएं उजागर होती हैं। उभरते हुए MLLM-आधारित दृष्टिकोणों का प्रदर्शन, तर्क क्षमता, संगणनात्मक लागत, और इंटरैक्शन क्षमता के संदर्भ में परीक्षण किया गया है। कार्य-विशेष मॉडलों की तुलना में फाउंडेशन मॉडल दृष्टिकोणों की तुलना करके, हम संसाधन-सीमित बनाम संदर्भ-सचेत अनुप्रयोगों के लिए उनके संबंधित बलों को स्पष्ट करते हैं। अंत में, हम सहायक तकनीकों और मानव–AI इंटरैक्शन जैसे लागू परिदृश्यों के लिए मजबूत, कुशल, और तैनात करने योग्य ERV सिस्टम बनाए जाने के व्यावहारिक अनुसंधान दिशाओं का सारांश प्रस्तुत करते हैं।

Bookmark

View Full Paper

Bookmark

View Full Paper

इमोशन रिकग्निशन सिस्टम्स का तुलनात्मक अध्ययन: पारंपरिक दृष्टिकोणों से मल्टीमोडल बड़े भाषा मॉडलों तक

Key Points

Abstract

Cite This Study