July 21, 2017

CNN-LSTMを用いた連続的な中国手話認識

Key Points

Key points are not available for this paper at this time.

Abstract

手話認識（SLR）の目的は、手話をテキストに翻訳し、聴覚と口を持たない人々と一般の人々との間のコミュニケーションのための便利なツールを提供することです。本論文では、連続認識作業を達成するために、畳み込みニューラルネットワーク（CNN）と長短期記憶（LSTM）ネットワークを組み合わせた適切なモデルを定式化します。CNNの強力な能力により、中国手話（CSL）ビデオからキャプチャされた画像の情報を学習し、ベクトルに変換することができます。ビデオはフレームの順序付けられたシーケンスと見なすことができるため、LSTMモデルはCNNの全結合層と接続するために採用されます。RNNとして、これは時系列の距離によって定義されたパターンを認識する能力を持つシーケンス学習タスクに適しています。従来のRNNと比較して、LSTMは情報の保存とアクセスに優れています。我々は、40の毎日の語彙を含む自己構築したデータセットでこの方法を評価します。実験結果は、CNN-LSTMを用いた認識方法が、小さなトレーニングセットで高い認識率を達成できることを示しており、リアルタイムのSLRシステムのニーズに応えることができます。

AIに質問

Bookmark