सारांश विसरण-आधारित दृश्य पाठ संश्लेषण ने तेजी से प्रगति की है, फिर भी मौजूदा विधियाँ आमतौर पर अतिरिक्त दृश्य संयोजन मॉड्यूल पर निर्भर करती हैं और बहुभाषी जनरेशन के समर्थन के लिए बड़े पैमाने पर एनोटेटेड डेटा की आवश्यकता होती है। इस कार्य में, हम जटिल सहायक मॉड्यूल की आवश्यकता पर पुनर्विचार करते हैं और एक ऐसी पद्धति का अन्वेषण करते हैं जो एक साथ अक्षर की शुद्धता सुनिश्चित करती है और उच्च-विश्वसनीय दृश्य एकीकरण प्राप्त करती है, विसरण मॉडलों की अंतर्निहित संदर्भात्मक तर्क क्षमताओं का लाभ उठाकर। इसके लिए, हम TextFlux प्रस्तुत करते हैं, एक DiT-आधारित फ्रेमवर्क जो बहुभाषी दृश्य पाठ संश्लेषण सक्षम बनाता है। TextFlux के लाभ इस प्रकार संक्षेपित हैं: (1) OCR-मुक्त मॉडल वास्तुकला। TextFlux उन OCR एन्कोडर्स की आवश्यकता समाप्त करता है जो विशिष्ट रूप से दृश्य पाठ-संबंधी सुविधाओं को निकालने के लिए उपयोग किए जाते हैं। (2) मजबूत बहुभाषी स्केलेबिलिटी। TextFlux कम संसाधन वाली बहुभाषी सेटिंग्स में प्रभावी है, और 1,000 से कम नमूनों वाली नई जोड़ी गई भाषाओं में मजबूत प्रदर्शन प्राप्त करता है। (3) सुव्यवस्थित प्रशिक्षण सेटअप। TextFlux केवल प्रतिस्पर्धी विधियों द्वारा आवश्यक प्रशिक्षण डेटा के 1% के साथ प्रशिक्षित किया जाता है। (4) नियंत्रणीय बहु-लाइन पाठ उत्पादन। TextFlux सटीक लाइन-स्तर नियंत्रण के साथ लचीला बहु-लाइन संश्लेषण प्रदान करता है, जो एक-पंक्ति या कठोर लेआउट तक सीमित विधियों से बेहतर है। व्यापक प्रयोग और दृश्यांकन दिखाते हैं कि TextFlux गुणवत्ता और मात्रात्मक दोनों मूल्यांकनों में पूर्व विधियों से बेहतर प्रदर्शन करता है। हमारा कोड https://github.com/yyyyyxie/textflux पर उपलब्ध है।
Xie et al. (शुक्रवार,) ने इस प्रश्न का अध्ययन किया।
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: