Key points are not available for this paper at this time.
Die Erkennung von Text in Szenen ist ein heißes Forschungsthema in der Computer Vision aufgrund ihrer vielfältigen Anwendungen. Der aktuelle Stand der Technik ist das auf Aufmerksamkeit basierende Encoder-Decoder-Framework, das die Zuordnung zwischen Eingabebildern und Ausgabesequenzen auf rein datengetriebene Weise erlernt. Wir stellen jedoch fest, dass bestehende auf Aufmerksamkeit basierende Methoden bei komplizierten und/oder qualitativ schlechten Bildern schlechte Leistungen erbringen. Ein Hauptgrund dafür ist, dass die bestehenden Methoden keine genauen Ausrichtungen zwischen Merkmalsbereichen und Zielen für solche Bilder erhalten können. Wir nennen dieses Phänomen „Aufmerksamkeitsdrift“. Um dieses Problem zu lösen, schlagen wir in diesem Papier die Methode FAN (die Abkürzung für Focusing Attention Network) vor, die einen Fokussierungsmechanismus verwendet, um die abgedriftete Aufmerksamkeit automatisch zurückzuziehen. FAN besteht aus zwei Hauptkomponenten: einem Aufmerksamkeitsnetzwerk (AN), das für die Erkennung von Zielzeichen wie in den bestehenden Methoden verantwortlich ist, und einem Fokussierungsnetzwerk (FN), das dafür verantwortlich ist, die Aufmerksamkeit zu justieren, indem es bewertet, ob AN richtig auf die Zielbereiche in den Bildern achtet. Darüber hinaus verwenden wir im Gegensatz zu den bestehenden Methoden ein auf ResNet basierendes Netzwerk, um tiefe Darstellungen von Szenenbildtexten zu bereichern. Umfangreiche Experimente an verschiedenen Benchmarks, einschließlich der IIIT5k-, SVT- und ICDAR-Datensätze, zeigen, dass die FAN-Methode die bestehenden Methoden erheblich übertrifft.
Cheng et al. (Sun,) haben diese Frage untersucht.
Synapse has enriched 3 closely related papers on similar clinical questions. Consider them for comparative context: