What question did this study set out to answer?

एक ऐसा मॉडल विकसित करना जो OCR पर निर्भरता को समाप्त कर बहुभाषी दृश्य पाठ संश्लेषण करे और उच्च विश्वसनीयता प्राप्त करे।

March 29, 2026

TextFlux: उच्च-विश्वसनीय बहुभाषी दृश्य पाठ संश्लेषण के लिए एक OCR-मुक्त DiT मॉडल

Key Points

एक ऐसा मॉडल विकसित करना जो OCR पर निर्भरता को समाप्त कर बहुभाषी दृश्य पाठ संश्लेषण करे और उच्च विश्वसनीयता प्राप्त करे।
TextFlux प्रस्तुत किया, एक OCR-मुक्त फ्रेमवर्क दृश्य पाठ संश्लेषण के लिए।
संदर्भात्मक तर्क और अक्षर शुद्धता के लिए विसरण मॉडलों का लाभ लिया।
कम संसाधन वाली भाषाओं वाली बहुभाषी सेटिंग्स में मॉडल के प्रदर्शन का परीक्षण किया।
एक सुव्यवस्थित प्रशिक्षण प्रक्रिया का उपयोग किया जिसमें केवल अन्य विधियों द्वारा उपयोग किए गए डेटा का 1% आवश्यक है।
TextFlux ने गुणवत्ता और मात्रात्मक दोनों मीट्रिक्स में पूर्व विधियों को पछाड़ दिया।
1,000 से कम डेटा नमूनों वाली भाषाओं में प्रभावी प्रदर्शन प्राप्त किया।
सटीक नियंत्रण के साथ लचीला बहु-लाइन पाठ उत्पन्न करना सक्षम किया।

Abstract

सारांश विसरण-आधारित दृश्य पाठ संश्लेषण ने तेजी से प्रगति की है, फिर भी मौजूदा विधियाँ आमतौर पर अतिरिक्त दृश्य संयोजन मॉड्यूल पर निर्भर करती हैं और बहुभाषी जनरेशन के समर्थन के लिए बड़े पैमाने पर एनोटेटेड डेटा की आवश्यकता होती है। इस कार्य में, हम जटिल सहायक मॉड्यूल की आवश्यकता पर पुनर्विचार करते हैं और एक ऐसी पद्धति का अन्वेषण करते हैं जो एक साथ अक्षर की शुद्धता सुनिश्चित करती है और उच्च-विश्वसनीय दृश्य एकीकरण प्राप्त करती है, विसरण मॉडलों की अंतर्निहित संदर्भात्मक तर्क क्षमताओं का लाभ उठाकर। इसके लिए, हम TextFlux प्रस्तुत करते हैं, एक DiT-आधारित फ्रेमवर्क जो बहुभाषी दृश्य पाठ संश्लेषण सक्षम बनाता है। TextFlux के लाभ इस प्रकार संक्षेपित हैं: (1) OCR-मुक्त मॉडल वास्तुकला। TextFlux उन OCR एन्कोडर्स की आवश्यकता समाप्त करता है जो विशिष्ट रूप से दृश्य पाठ-संबंधी सुविधाओं को निकालने के लिए उपयोग किए जाते हैं। (2) मजबूत बहुभाषी स्केलेबिलिटी। TextFlux कम संसाधन वाली बहुभाषी सेटिंग्स में प्रभावी है, और 1,000 से कम नमूनों वाली नई जोड़ी गई भाषाओं में मजबूत प्रदर्शन प्राप्त करता है। (3) सुव्यवस्थित प्रशिक्षण सेटअप। TextFlux केवल प्रतिस्पर्धी विधियों द्वारा आवश्यक प्रशिक्षण डेटा के 1% के साथ प्रशिक्षित किया जाता है। (4) नियंत्रणीय बहु-लाइन पाठ उत्पादन। TextFlux सटीक लाइन-स्तर नियंत्रण के साथ लचीला बहु-लाइन संश्लेषण प्रदान करता है, जो एक-पंक्ति या कठोर लेआउट तक सीमित विधियों से बेहतर है। व्यापक प्रयोग और दृश्यांकन दिखाते हैं कि TextFlux गुणवत्ता और मात्रात्मक दोनों मूल्यांकनों में पूर्व विधियों से बेहतर प्रदर्शन करता है। हमारा कोड https://github.com/yyyyyxie/textflux पर उपलब्ध है।

AI से पूछें

Bookmark