Key points are not available for this paper at this time.
この論文ではCOCO-Textデータセットを説明します。近年、SUNやImagenetのような大規模なデータセットが、シーン理解と認識の進展を促進しました。COCO-Textの目標は、自然画像における検出と認識の最先端を進めることです。このデータセットは、複雑な日常シーンの画像を含むCOCOデータセットに基づいています。画像はテキストを考慮せずに収集されているため、さまざまなテキストが含まれています。自然シーンにおけるテキストの多様性を反映するために、テキストを次のように注釈付けしています。(a) バウンディングボックスによる位置、(b) 機械印刷されたテキストと手書きのテキストの細かな分類、(c) 読めるテキストと読めないテキストへの分類、(d) テキストのスクリプト、(e) 読めるテキストのトランスクリプション。データセットは63,000以上の画像に173,000以上のテキスト注釈を含みます。私たちは注釈の正確性に関する統計分析を行います。さらに、私たちのデータセットに基づいて最先端の光学的文字認識(OCR)アプローチの3つの分析を提示します。近年、シーンテキストと認識は大きな進展を見せていますが、今後の作業を促す短所も特定しています。
Veit et al. (火曜日)はこの問題を研究しました。