June 3, 2019Open Access

ビュー間の相互情報量を最大化して表現を学習する

Key Points

Key points are not available for this paper at this time.

Abstract

我々は、共有コンテキストの複数のビューから抽出された特徴間の相互情報を最大化することに基づく自己教師あり表現学習のアプローチを提案する。例えば、異なる場所（シーン内のカメラ位置など）や異なるモダリティ（触覚、聴覚、視覚など）から観察することで、ローカルな時空間コンテキストの複数のビューを生成することができる。また、ImageNetの画像からは、データ拡張を繰り返し適用することによって、複数のビューを生成できるコンテキストを提供することができる。これらのビューから抽出された特徴間の相互情報を最大化するには、複数のビューにまたがる影響を持つ高次要因に関する情報を捉える必要がある。例えば、特定の物体の存在や特定のイベントの発生がそれに該当する。提案するアプローチに従い、我々は、考慮するタスクにおいて以前の手法を大きく上回る画像表現を学習するモデルを開発する。特に、自己教師あり学習を使用することで、我々のモデルは標準的な線形評価においてImageNetで68.1%の精度を達成する表現を学習する。これは、以前の結果を12%以上、同時期の結果を7%上回る。モデルを混合ベースの表現に拡張すると、セグメンテーションの挙動が自然な副作用として現れる。我々のコードはオンラインで入手可能です：https://github.com/Philip-Bachman/amdim-public。

Bookmark

View Full Paper