What question did this study set out to answer?

The research aims to improve scene text recognition by integrating visual question answering with text spotting techniques.

June 28, 2026

QG-STR: Training-Time Optimized Question-Guided Scene Text Recognition via Visual Question Answering

Key Points

The research aims to improve scene text recognition by integrating visual question answering with text spotting techniques.
Proposed a framework named QG-STR that combines scene text recognition, visual question generation, and visual question answering.
Utilized multimodal reasoning as supervisory signals during training to optimize text recognition accuracy.
Conducted experiments across multiple datasets, including Total-Text, ICDAR2015, ICDAR2013, and CTW1500.
QG-STR significantly improved text recognition accuracy across various datasets as validated by extensive experiments.
The framework operates independently during inference without external question reliance, enhancing usability.
Demonstrated model-agnostic capabilities compatible with various STR and VQA architectures.

Abstract

Scene Text Spotting (STS) aims to transcribe text embedded in natural images, typically encompassing Scene Text Detection (STD) and Scene Text Recognition (STR). Advances in image understanding have made end-to-end text spotting increasingly viable. Concurrently, multimodal research has highlighted the potential of vision-language reasoning tasks, such as Visual Question Answering (VQA). To leverage multimodal reasoning for STR, we propose a training-time question-guided STR framework that integrates VQA, termed Q uestion- G uided S cene T ext R ecognition (QG-STR). The framework unifies STR, Visual Question Generation (VQG), and VQA within a single architecture, enabling multimodal reasoning to enhance text-spotting performance. Specifically, visual understanding and logical reasoning are used as supervisory signals during training to improve text recognition accuracy and boost end-to-end text spotting. QG-STR is model-agnostic and compatible with diverse STR and VQA architectures, employing question guidance solely as a training-time supervision mechanism. During inference, the STR module functions independently without requiring external questions. Extensive experiments on Total-Text , ICDAR2015 , ICDAR2013 , and CTW1500 validate the effectiveness of QG-STR.

اسأل الذكاء الاصطناعي

Bookmark

Cite This Study

Xu et al. (Fri,) studied this question.

synapsesocial.com/papers/6a40bab961bb0a67205c689c https://doi.org/https://doi.org/10.1145/3822602

Also Consider

Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context:

اسأل الذكاء الاصطناعي

Bookmark