近年、さまざまな科学分野で時空間基盤モデルの急増が見られます。有望である一方で、これらのモデルはしばしばドメイン特異的であり、設計された特定の応用内でのみ評価されています。多くのタスクがビデオモデリング問題として表現できることを考えると、ビデオ基盤モデル(ViFMs)は、汎用的でドメイン非依存のアプローチとして大きな可能性を持っています。しかし、大規模かつ潜在的にドメイン外のデータで習得された知識が、多様な科学分野間で効果的に転移できるか、また単一の事前学習済みViFMがドメイン特異的なベースラインと競合できるかは不明です。これに対処するため、私たちは医療コンピュータビジョン、動物行動、気象予報の5つの*科学的ビデオ*タスクで構成される包括的なベンチマークSciVidを紹介します。6つの主要なViFMをSciVidに適応させ、単純な訓練可能リードアウトモジュールを用いて強力なベースラインを確立し、効果的な転移学習の可能性を示しました。具体的には、ViFMバックボーンの汎用的表現を活用することで、複数の応用で最先端の結果が得られることを示しています。さらに、我々の結果は既存のViFMの限界を明らかにし、高影響の科学的応用向けに一般化可能なモデル開発の機会を示しています。ViFMの開発におけるさらなる研究を促進するため、コードを https://github.com/google-deepmind/scivid で公開します。
Hasson et al. (Fri,) はこの問題を研究しました。
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: