Key points are not available for this paper at this time.
ストリーミングデータからの相関異常検出(CAD)は、グループ異常検出の一種であり、ボットネット検出、金融イベント検出、産業プロセス監視などの有用なリアルタイムデータマイニングアプリケーションにおいて重要なタスクです。この種の検出に関する先行研究の主なアプローチは、相関行列の上位固有値を計算することによって、分割バッチまたはスライディングウィンドウの主成分スコア(PS)に基づいています。たとえば、ランツォスアルゴリズムなどです。しかし、本論文では、大規模データセットにおける主成分スコアの退化現象を提起し、数学的および実践的に、相関異常がデータサイズとともに合理的な速度で増加しても、現行のPSベースの手法が大規模ストリーミングデータにおけるCADに失敗する可能性が高いことを証明します。実際には、異常はデータの少数派である傾向があり、この問題はさらに深刻になる可能性があります。我々は、さまざまな相関強度の大規模ストリーミングデータから相関異常をより良く検出するための新しいランダム化アルゴリズムrPSとgPSを利用した枠組みを提案します。実験は、直接的な主成分スコアの評価や他の最近のグループ異常検出アルゴリズムと比較して、大規模サーバーログデータセットおよび米国株のデイリープライスデータセットからの異常検出における我々の枠組みの高いバランスの取れた適合率と推定精度を示します。さらに、我々の技術は主成分スコア計算の計算効率とスケーラビリティを大幅に向上させます。
Chen et al. (Sat,) はこの問題を研究しました。
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: