Key points are not available for this paper at this time.
Vortraining-Methoden zur Szenentexterkennung (STR) haben bemerkenswerte Fortschritte erzielt, wobei sie hauptsächlich auf synthetischen Datensätzen basieren. Der Domain-Gap zwischen synthetischen und realen Bildern stellt jedoch eine Herausforderung dar, um Merkmalsdarstellungen zu erwerben, die gut mit Bildern aus realen Szenen übereinstimmen, wodurch die Leistung dieser Methoden begrenzt wird. Wir stellen fest, dass Vision-Language-Modelle wie CLIP, die auf umfangreichen realen Bild-Text-Paaren vortrainiert sind, Bilder und Texte effektiv in einem einheitlichen Einbettungsraum ausrichten, was das Potenzial nahelegt, die Darstellungen realer Bilder nur aus Text abzuleiten. Aufbauend auf dieser Prämisse stellen wir eine neuartige Methode namens Decoder-Vortraining nur mit Text für STR (DPTR) vor. DPTR behandelt die Texteingebungen, die vom CLIP-Text-Encoder erzeugt werden, als pseudo-visuelle Einbettungen und verwendet sie, um den Decoder vorzutrainieren. Eine Offline-Randomisierte Störstrategie (ORP) wird eingeführt. Sie bereichert die Vielfalt der Texteingebungen, indem sie natürliche Bildeinbettungen integriert, die vom CLIP-Bild-Encoder extrahiert wurden, und leitet den Decoder effektiv dazu, die potenziellen Darstellungen realer Bilder zu erwerben. Darüber hinaus führen wir eine Feature Merge Unit (FMU) ein, die die extrahierten visuellen Einbettungen lenkt und sich auf den Zeichen-Vordergrund innerhalb des Textbildes konzentriert, wodurch der vortrainierte Decoder effizienter und genauer arbeitet. Umfangreiche Experimente mit verschiedenen STR-Decodern und Sprachenerkennungsaufgaben unterstreichen die breite Anwendbarkeit und bemerkenswerte Leistung von DPTR und bieten eine neuartige Einsicht für das Vortraining von STR. Der Code ist verfügbar unter https://github.com/Topdu/OpenOCR.
Zhao et al. (Sun,) haben diese Frage untersucht.