Key points are not available for this paper at this time.
人間は、左目で見る長波長光チャネルや、右耳で聞く高周波振動チャネルなど、多くの感覚チャネルを通じて世界を見ています。各視点はノイズが多く不完全ですが、物理学、幾何学、意味論などの重要な要因は、すべての視点間で共有される傾向があります(例えば、「犬」は見ること、聞くこと、感じることができます)。我々は、強力な表現は視点不変の要因をモデル化するものであるという古典的仮説を検討します。私たちは、同じシーンの異なる視点間の相互情報量を最大化することを目指した表現を学ぶマルチビュー対照学習の枠組みの下でこの仮説を研究しますが、それ以外はコンパクトです。私たちのアプローチは任意の数の視点にスケールし、視点に依存しません。アプローチの中核的な特性を分析し、対照的損失がクロスビュー予測に基づいた人気のある代替手法よりも優れていることを発見しました。また、より多くの視点から学ぶことで、得られた表現が基盤となるシーンの意味をよりよく捉えることがわかりました。私たちのアプローチは、画像およびビデオの教師なし学習ベンチマークで最先端の結果を達成します。コードは次のURLで公開されています: http://github.com/HobbitLong/CMC/.
Tian et al. (Thu,) はこの問題を研究しました。