October 22, 2009Open Access

消費者ビデオのための音声ベースの意味概念分類

Key Points

Key points are not available for this paper at this time.

Abstract

この論文では、音楽トラックに基づいて消費者ビデオクリップを自動的に分類する新しい方法を提案します。ユーザーにとっての有用性、自動検出とアノテーターによるラベリングの実現可能性、利用可能なビデオコレクションにおける表現の十分性を考慮して、25の重なり合う意味クラスのセットを使用しています。実際のユーザーからの1873本のビデオがこれらの概念でアノテートされました。各ビデオクリップの基本表現をメル周波数ケプストラム係数（MFCC）フレームのシーケンスとして始め、次に3つのクリップレベルの表現を実験します：単一ガウスモデル、ガウス混合モデル、およびガウス成分ヒストグラムの確率的潜在意味解析。これらの要約特徴を使用して、Kullback-Leibler、Bhattacharyya、またはMahalanobis距離計測に基づくサポートベクターマシン（SVM）分類器を生成します。定量的評価は、私たちのアプローチが大規模な実世界の消費者ビデオクリップコレクションにおける興味深い概念を検出するのに効果的であることを示しています。

消費者ビデオのための音声ベースの意味概念分類

Key Points

Abstract

Cite This Study

Also Consider

Also Consider