Key points are not available for this paper at this time.
सामाजिक वैज्ञानिक और आम जनता अक्सर समकालीन घटनाओं का विश्लेषण अतीत के साथ समानांतर खींचकर करते हैं, जो ऐतिहासिक पाठों की विशाल, शोर भरी और असंरचित प्रकृति से जटिल हो जाता है। उदाहरण के लिए, ऐतिहासिक समाचार पत्रों से कई करोड़ पृष्ठ स्कैन शोर-शोर में लिखे गए हैं। इन विशाल कॉर्पस में प्रासंगिक सामग्री की खोज के लिए पारंपरिक स्पार्स तरीकों, जैसे कि कीवर्ड का उपयोग, जटिल शब्दावली और OCR शोर के कारण कमजोर हो सकते हैं। यह अध्ययन न्यूज़ डेज़ा वू पेश करता है, एक नवीन सेमांटिक सर्च टूल जो ट्रांसफार्मर बड़े भाषा मॉडल और एक बाय-एनकोडर दृष्टिकोण का लाभ उठाकर ऐतिहासिक समाचार लेखों की पहचान करता है जो आधुनिक समाचार प्रश्नों के सबसे समान होते हैं। न्यूज़ डेज़ा वू पहले संस्थाओं को पहचानता और छुपाता है, ताकि विशिष्ट नामित संस्थाओं पर चर्चा करने के बजाय व्यापक समानांतरों पर ध्यान केंद्रित किया जा सके। फिर, एक विपरीत रूप से प्रशिक्षित, हल्का बाय-एनकोडर ऐतिहासिक लेखों को पुनः प्राप्त करता है जो कि एक आधुनिक प्रश्न के लिए सेमांटिक रूप से सबसे समान होते हैं, यह दिखाते हुए कि कैसे ऐसी घटनाएँ जो वर्तमान में अद्वितीय लग सकती हैं, उनके भिन्न ऐतिहासिक पूर्वाग्रह होते हैं। सामाजिक वैज्ञानिकों के लिए लक्षित, उपयोगकर्ता के अनुकूल न्यूज़ डेज़ा वू पैकेज उन लोगों के लिए सुलभ बनाने के लिए डिज़ाइन किया गया है जिन्हें गहन अध्ययन का व्यापक ज्ञान नहीं है। यह बड़े पाठ डेटा सेटों के साथ काम करता है, और हम दिखाते हैं कि इसे ऐतिहासिक, ओपन-सोर्स समाचार लेखों के विशाल पैमाने के कॉर्पस में कैसे लागू किया जा सकता है। जबकि गहरे अंतर्दृष्टि प्राप्त करने के लिए मानव विशेषज्ञता महत्वपूर्ण है, न्यूज़ डेज़ा वू समानांतरों का पता लगाने के लिए एक शक्तिशाली उपकरण प्रदान करता है कि लोगों ने अतीत और वर्तमान को कैसे देखा है।
फ्रैंकलिन एट अल। (शुक्रवार,) ने इस सवाल का अध्ययन किया।
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: