January 26, 2016Open Access

COCO-Text: 自然画像におけるテキスト検出と認識のためのデータセットとベンチマーク

Key Points

Key points are not available for this paper at this time.

Abstract

この論文ではCOCO-Textデータセットを説明します。近年、SUNやImagenetのような大規模なデータセットが、シーン理解と認識の進展を促進しました。COCO-Textの目標は、自然画像における検出と認識の最先端を進めることです。このデータセットは、複雑な日常シーンの画像を含むCOCOデータセットに基づいています。画像はテキストを考慮せずに収集されているため、さまざまなテキストが含まれています。自然シーンにおけるテキストの多様性を反映するために、テキストを次のように注釈付けしています。(a) バウンディングボックスによる位置、(b) 機械印刷されたテキストと手書きのテキストの細かな分類、(c) 読めるテキストと読めないテキストへの分類、(d) テキストのスクリプト、(e) 読めるテキストのトランスクリプション。データセットは63,000以上の画像に173,000以上のテキスト注釈を含みます。私たちは注釈の正確性に関する統計分析を行います。さらに、私たちのデータセットに基づいて最先端の光学的文字認識（OCR）アプローチの3つの分析を提示します。近年、シーンテキストと認識は大きな進展を見せていますが、今後の作業を促す短所も特定しています。

AIに質問

Bookmark

View Full Paper