Key points are not available for this paper at this time.
वास्तविक समय की उपशीर्षकण सुनने में असमर्थ और कमजोर सुनने वाले लोगों को बोले गए भाषा का तात्कालिक पहुँच प्रदान करती है और दूसरों के साथ संवाद में भाग लेने की सुविधा देती है। कम लेटेंसी महत्वपूर्ण है क्योंकि यह आवाज को संबंधित दृश्य संकेतों के साथ जोड़ने की अनुमति देती है। वर्तमान में, वास्तविक समय की उपशीर्षक का एकमात्र विश्वसनीय स्रोत महंगे स्टेनोग्राफर हैं जिन्हें पहले से भर्ती किया जाना चाहिए और जो विशेष कीबोर्ड का उपयोग करने के लिए प्रशिक्षित होते हैं। स्वचालित भाषण पहचान (ASR) कम खर्चीला और मांग पर उपलब्ध है, लेकिन इसकी कम सटीकता, उच्च शोर संवेदनशीलता, और प्रशिक्षण की आवश्यकता इसे वास्तविक विश्व स्थितियों में अप्रयुक्त बनाती है। इस पत्र में, हम एक नए दृष्टिकोण का परिचय देते हैं जिसमें गैर-विशेषज्ञ उपशीर्षककर्ताओं (लोग जो सुन सकते हैं और टाइप कर सकते हैं) के समूह सामूहिक रूप से वास्तविक समय में भाषण को मांग पर उपशीर्षक प्रदान करते हैं। हम Legion:Scribe, एक अंत-से-अंत प्रणाली प्रस्तुत करते हैं जो बहरों को कभी भी उपशीर्षक मांगने की अनुमति देती है। हम वास्तविक समय में आंशिक उपशीर्षक को एकल आउटपुट स्ट्रीम में जोड़ने के लिए एक एल्गोरिदम का परिचय देते हैं, और एक उपशीर्षकण इंटरफेस जो संपूर्ण ऑडियो स्ट्रीम की कवरिंग को प्रोत्साहित करने के लिए डिज़ाइन किया गया है। 20 स्थानीय प्रतिभागियों और 18 भीड़ कार्यकर्ताओं के साथ मूल्यांकन से पता चलता है कि गैर-विशेषज्ञ उपशीर्षकण के लिए एक प्रभावी समाधान प्रदान कर सकते हैं, केवल 10 कार्यकर्ताओं के साथ औसतन 93.2% ऑडियो स्ट्रीम को सही ढंग से कवर करते हैं और औसत प्रति-शब्द लेटेंसी 2.9 सेकंड है। अधिक सामान्यतः, हमारा मॉडल जिसमें कई कार्यकर्ता आंशिक इनपुट देते हैं जो स्वचालित रूप से वास्तविक समय में मिलाए जाते हैं, इसे गतिशील समूहों को विभिन्न मानव प्रदर्शन कार्यों पर घटक व्यक्तियों (यहाँ तक कि विशेषज्ञ) को पार करने की अनुमति देने के लिए विस्तारित किया जा सकता है।
Lasecki et al. (शुक्रवार) ने इस प्रश्न का अध्ययन किया।