April 3, 2020Open Access

Echtzeit-Szenen-Textdetektion mit differenzierbarer Binarisierung

Key Points

Key points are not available for this paper at this time.

Abstract

In letzter Zeit sind segmentierungsbasierte Methoden in der Szenen-Textdetektion sehr populär, da die Segmentierungsergebnisse den Szenen-Text verschiedener Formen wie Kurventext genauer beschreiben können. Die Nachbearbeitung der Binarisierung ist jedoch entscheidend für die segmentierungsbasierte Detektion, da sie die von einer Segmentierungsmethode erzeugten Wahrscheinlichkeitskarten in Begrenzungsrahmen/Textbereiche umwandelt. In diesem Papier schlagen wir ein Modul namens Differenzierbare Binarisierung (DB) vor, das den Binarisierungsprozess in einem Segmentierungsnetzwerk durchführen kann. Optimiert zusammen mit einem DB-Modul kann ein Segmentierungsnetzwerk adaptiv die Schwellenwerte für die Binarisierung festlegen, was nicht nur die Nachbearbeitung vereinfacht, sondern auch die Leistung der Textdetektion verbessert. Basierend auf einem einfachen Segmentierungsnetzwerk validieren wir die Leistungsverbesserungen von DB an fünf Benchmark-Datensätzen, die durchweg erstklassige Ergebnisse in Bezug auf sowohl Erkennungsgenauigkeit als auch Geschwindigkeit erzielen. Insbesondere mit einem leichten Backbone sind die Leistungsverbesserungen durch DB so signifikant, dass wir nach einem idealen Kompromiss zwischen Erkennungsgenauigkeit und Effizienz suchen können. Konkret erreicht unser Detektor mit einem Backbone von ResNet-18 ein F-Maß von 82,8 bei 62 FPS auf dem MSRA-TD500-Datensatz. Code ist verfügbar unter: https://github.com/MhLiao/DB.

KI fragen

Bookmark

View Full Paper