Key points are not available for this paper at this time.
ImageNet のようなデータセットで訓練されたニューラルネットワークは、視覚的対象の分類において大きな進歩をもたらしました。複雑なシーンや状況について深く推論すること、そして人間のように視覚的知識と自然言語を統合することを妨げる障害は、物理的世界に関する常識知識の欠如です。静止画像とは異なり、ビデオには物理的世界に関する詳細な情報が豊富に含まれています。しかし、ほとんどのラベル付きビデオデータセットは、アクションやシーンの詳細な物理的側面よりも高レベルの概念を表しています。本研究では、描写された状況に関する常識的理解を必要とするビデオ予測タスクの「サムシング・サムシング」データベースの収集を進めていることを説明します。このデータベースには現在、174のクラスにわたる10万本以上のビデオが含まれており、キャプションテンプレートとして定義されています。また、このデータを大規模にクラウドソーシングする際の課題についても説明します。
Goyal et al. (Sun) はこの問題について研究しました。
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: