Key points are not available for this paper at this time.
ビデオ理解はマルチモーダル大規模言語モデル(MLLM)のための重要な次のステップです。ビデオ理解能力の特定の側面を探るために、既存のビデオベンチマークは通常、目標能力に基づいて慎重なビデオ選択を必要とし、特定のビデオコンテンツに一致させるためのクエリ-レスポンスペアの煩雑な注釈が求められます。このプロセスは挑戦的で資源を多く消費します。本論文では、合成ビデオ生成を通じてベンチマークを構築するためのフレームワーク、VideoNIAH(ビデオ針の中の針)を提案します。VideoNIAHは、元のビデオに無関係な画像/テキストの「針」を挿入することでテストビデオの内容をクエリ-レスポンスから切り離します。それは、これらの針からのみ注釈を生成し、ビデオソースの多様性とさまざまなクエリ-レスポンスを確保します。さらに、複数の針を挿入することで、VideoNIAHはモデルの時間的理解能力を厳密に評価します。我々はVideoNIAHを使用して、取得、順序付け、カウントなどのタスクを含むビデオベンチマークVNBenchをコンパイルしました。VNBenchは、ビデオモデルの詳細な理解能力と時空間モデリング能力を効率的に評価できるだけでなく、長期コンテキスト評価もサポートします。さらに、オープンソースとプロプライエタリの最近のビデオ中心のマルチモーダル大規模言語モデル(MLLM)を評価し、包括的な分析を提供しました。我々は、プロプライエタリモデルがオープンソースモデルに対して大きな利点を持っているものの、すべての既存のビデオモデルが依然として長距離依存タスクにおいて不十分な性能を示すことを発見しました。VideoNIAHはシンプルでありながら非常にスケーラブルなベンチマーク構築フレームワークであり、今後のビデオベンチマーク作成にインスピレーションを与えると信じています。コードとデータは https://github.com/joez17/VideoNIAH で入手可能です。
Zhao et al. (Thu,) はこの問題を研究しました。