वीडियो में भावना पहचान (ERV) का उद्देश्य दृश्य, ऑडियो, और संदर्भ संकेतों से मानवीय भावों का अनुमान लगाना है और यह इंटरैक्टिव और बुद्धिमान प्रणालियों के लिए तेजी से महत्वपूर्ण होता जा रहा है। पिछले दशक में, ERV ने हस्तनिर्मित विशेषताओं और कार्य-विशेष डीप लर्निंग मॉडलों से लेकर ट्रांसफॉर्मर-आधारित विज़न–भाषा मॉडलों और मल्टीमोडल बड़े भाषा मॉडलों (MLLMs) की ओर विकास किया है। यह समीक्षा इस विकास का सर्वेक्षण करती है, वास्तविक दुनिया में तैनाती से संबंधित इंजीनियरिंग विचारों पर जोर देती है। हम मल्टीमोडल फ्यूज़न रणनीतियों, डेटासेट की विशेषताओं, और मूल्यांकन प्रोटोकॉल का विश्लेषण करते हैं, जिसमें अप्रतिबंधित परिस्थितियों में स्थिरता, पक्षपात, और एनोटेशन गुणवत्ता की सीमाएं उजागर होती हैं। उभरते हुए MLLM-आधारित दृष्टिकोणों का प्रदर्शन, तर्क क्षमता, संगणनात्मक लागत, और इंटरैक्शन क्षमता के संदर्भ में परीक्षण किया गया है। कार्य-विशेष मॉडलों की तुलना में फाउंडेशन मॉडल दृष्टिकोणों की तुलना करके, हम संसाधन-सीमित बनाम संदर्भ-सचेत अनुप्रयोगों के लिए उनके संबंधित बलों को स्पष्ट करते हैं। अंत में, हम सहायक तकनीकों और मानव–AI इंटरैक्शन जैसे लागू परिदृश्यों के लिए मजबूत, कुशल, और तैनात करने योग्य ERV सिस्टम बनाए जाने के व्यावहारिक अनुसंधान दिशाओं का सारांश प्रस्तुत करते हैं।
(Marinescu) et al. (Tue,) ने इस प्रश्न का अध्ययन किया।