Key points are not available for this paper at this time.
この論文では、視覚的および音声視覚的音声認識のための新しいマルチモーダルデータセットを紹介します。これは、400時間以上のTEDおよびTEDxビデオからの顔のトラックと、それに対応する字幕および単語の整合境界を含んでいます。この新しいデータセットは、一般的な研究に利用可能な他の公開データセットと比較して、スケールが大幅に大きくなっています。
Afouras et al. (Mon,) はこの問題を研究しました。