What question did this study set out to answer?

高忠実度のビデオインスタンスセグメンテーションを確保しつつ、プライバシーの懸念に対処するメモリ効率の良いフレームワークの開発を目指しています。

April 22, 2026Open Access

SAMannot：SAM2に基づく対話型ビデオインスタンスセグメンテーションのためのメモリ効率的かつローカルでオープンソースのフレームワーク

Key Points

高忠実度のビデオインスタンスセグメンテーションを確保しつつ、プライバシーの懸念に対処するメモリ効率の良いフレームワークの開発を目指しています。
Segment Anything Model 2（SAM2）を活用したオープンソースのローカルフレームワークを開発しました。
計算オーバーヘッドを最小限に抑え、ユーザーの応答性を向上させる処理層を実装しました。
永続的なインスタンス識別管理や自動化ワークフローなど、注釈の効率化を図る機能を組み込みました。
複雑なビデオ注釈タスクにおいて、商用プラットフォームに対する費用効果の高い代替手段を提供します。
YOLOおよびPNG形式の研究準備済みデータセットの生成を促進します。
動物行動追跡のユースケースやLVOSおよびDAVISのベンチマークデータセットを用いて検証しました。

Abstract

精密なビデオセグメンテーションのための現在の研究ワークフローは、労力を要する手動キュレーション、高価な商用プラットフォーム、およびプライバシーを損なうクラウドベースのサービスの間で妥協を強いられることが多いです。研究における高忠実度のビデオインスタンスセグメンテーションの需要は、手動アノテーションのボトルネックとクラウドベースツールのプライバシー問題によって妨げられています。私たちはSAMannotを提案します。これはオープンソースでローカルに動作するフレームワークであり、Segment Anything Model 2（SAM2）をヒューマンインザループワークフローに統合したものです。基盤モデルの高いリソース要件に対処するため、SAM2の依存関係を修正し、計算オーバーヘッドを最小限に抑えスループットを最大化する処理層を実装し、高度に応答性の高いユーザーインターフェースを保証しました。主な機能には永続的なインスタンス識別管理、バリアフレームを用いた自動“ロック・アンド・リファイン”ワークフロー、およびマスク骨格化に基づく自動プロンプティングメカニズムが含まれます。SAMannotは構造化されたインタラクションログと共に、YOLOおよびPNG形式の研究準備済みデータセットの生成を促進します。動物行動追跡のユースケースやLVOSおよびDAVISのベンチマークデータセットのサブセットによって検証されており、このツールは複雑なビデオ注釈タスクに対する商用プラットフォームの拡張可能でプライベートかつ費用効果の高い代替手段を提供します。

Bookmark

View Full Paper