September 3, 2018Open Access

LRS3-TED: 視覚的音声認識のための大規模データセット

Key Points

Key points are not available for this paper at this time.

Abstract

この論文では、視覚的および音声視覚的音声認識のための新しいマルチモーダルデータセットを紹介します。これは、400時間以上のTEDおよびTEDxビデオからの顔のトラックと、それに対応する字幕および単語の整合境界を含んでいます。この新しいデータセットは、一般的な研究に利用可能な他の公開データセットと比較して、スケールが大幅に大きくなっています。

Bookmark

View Full Paper

Cite This Study

Afouras et al. (Mon,) はこの問題を研究しました。

synapsesocial.com/papers/6a1558265347fbb1739fa15f https://doi.org/https://doi.org/10.48550/arxiv.1809.00496

Bookmark

View Full Paper