October 5, 2012

गैर-विशेषज्ञों के समूहों द्वारा वास्तविक समय की उपशीर्षकण

Key Points

Key points are not available for this paper at this time.

Abstract

वास्तविक समय की उपशीर्षकण सुनने में असमर्थ और कमजोर सुनने वाले लोगों को बोले गए भाषा का तात्कालिक पहुँच प्रदान करती है और दूसरों के साथ संवाद में भाग लेने की सुविधा देती है। कम लेटेंसी महत्वपूर्ण है क्योंकि यह आवाज को संबंधित दृश्य संकेतों के साथ जोड़ने की अनुमति देती है। वर्तमान में, वास्तविक समय की उपशीर्षक का एकमात्र विश्वसनीय स्रोत महंगे स्टेनोग्राफर हैं जिन्हें पहले से भर्ती किया जाना चाहिए और जो विशेष कीबोर्ड का उपयोग करने के लिए प्रशिक्षित होते हैं। स्वचालित भाषण पहचान (ASR) कम खर्चीला और मांग पर उपलब्ध है, लेकिन इसकी कम सटीकता, उच्च शोर संवेदनशीलता, और प्रशिक्षण की आवश्यकता इसे वास्तविक विश्व स्थितियों में अप्रयुक्त बनाती है। इस पत्र में, हम एक नए दृष्टिकोण का परिचय देते हैं जिसमें गैर-विशेषज्ञ उपशीर्षककर्ताओं (लोग जो सुन सकते हैं और टाइप कर सकते हैं) के समूह सामूहिक रूप से वास्तविक समय में भाषण को मांग पर उपशीर्षक प्रदान करते हैं। हम Legion:Scribe, एक अंत-से-अंत प्रणाली प्रस्तुत करते हैं जो बहरों को कभी भी उपशीर्षक मांगने की अनुमति देती है। हम वास्तविक समय में आंशिक उपशीर्षक को एकल आउटपुट स्ट्रीम में जोड़ने के लिए एक एल्गोरिदम का परिचय देते हैं, और एक उपशीर्षकण इंटरफेस जो संपूर्ण ऑडियो स्ट्रीम की कवरिंग को प्रोत्साहित करने के लिए डिज़ाइन किया गया है। 20 स्थानीय प्रतिभागियों और 18 भीड़ कार्यकर्ताओं के साथ मूल्यांकन से पता चलता है कि गैर-विशेषज्ञ उपशीर्षकण के लिए एक प्रभावी समाधान प्रदान कर सकते हैं, केवल 10 कार्यकर्ताओं के साथ औसतन 93.2% ऑडियो स्ट्रीम को सही ढंग से कवर करते हैं और औसत प्रति-शब्द लेटेंसी 2.9 सेकंड है। अधिक सामान्यतः, हमारा मॉडल जिसमें कई कार्यकर्ता आंशिक इनपुट देते हैं जो स्वचालित रूप से वास्तविक समय में मिलाए जाते हैं, इसे गतिशील समूहों को विभिन्न मानव प्रदर्शन कार्यों पर घटक व्यक्तियों (यहाँ तक कि विशेषज्ञ) को पार करने की अनुमति देने के लिए विस्तारित किया जा सकता है।

AI से पूछें

Bookmark

AI से पूछें

Bookmark

गैर-विशेषज्ञों के समूहों द्वारा वास्तविक समय की उपशीर्षकण

Key Points

Abstract

Cite This Study