Key points are not available for this paper at this time.
未編集のビデオ内のすべてのイベントを自動的に位置特定しキャプションを付けることを目指す密なビデオキャプショニングに関する研究に大きな注目が集まっています。いくつかの研究では、イベントの位置特定とイベントのキャプション付けというマルチタスク問題として密なビデオキャプショニングを設計する方法が紹介されていますが、タスク間の関係を考慮する必要があります。しかし、視覚的な入力のみを使用して両方のタスクに対応することは、セマンティックコンテンツが不足しているため困難です。この研究では、人間の認知情報処理から着想を得た新しいフレームワークを提案することでこれに対処します。当モデルは、外部メモリを利用して事前知識を取り入れます。メモリリトリーバル手法は、クロスモーダルなビデオからテキストへのマッチングで提案されます。取得したテキスト特徴を効果的に取り入れるために、視覚的およびテキストのクロスアテンションモジュールを持つ汎用エンコーダとデコーダが設計されています。提案手法の効果を示すために、ActivityNet CaptionsおよびYouCook2データセットで比較実験が実施されました。実験結果は、大規模ビデオデータセットからの広範な事前トレーニングなしで、我々のモデルの有望な性能を示しています。
キムら(Thu)はこの問題について研究しました。
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: