Key points are not available for this paper at this time.
本論文では、最先端の文の埋め込みを大幅に進展させるシンプルな対照学習フレームワークであるSimCSEを提案します。まず、入力文を受け取り、自身を対照的な目的で予測する非監視アプローチを説明します。この際、ノイズとして標準的なドロップアウトのみが使用されます。このシンプルな手法は驚くほど良好に機能し、従来の監視型の手法と同等の性能を発揮します。我々は、ドロップアウトが最小限のデータ拡張として作用し、それを取り除くと表現が崩壊することを発見しました。その後、自然言語推論データセットからの注釈付きペアを対照学習フレームワークに組み込む監視型アプローチを提案します。 "含意"ペアをポジティブとして、"矛盾"ペアをハードネガティブとして使用します。SimCSEを標準的な意味的テキスト類似性(STS)タスクで評価し、BERT baseを使用した我々の非監視型および監視型モデルはそれぞれ平均76.3%と81.6%のスピアマンの相関を達成し、従来の最良結果に比べて4.2%および2.2%の改善を示しました。また、対照的な学習目的が事前学習された埋め込みの異方性空間をより均一に正則化し、監視信号が入手可能な場合にはポジティブペアをより良く整列させることを理論的にも経験的にも示します。 1
Gao et al. (金曜日)はこの問題を研究しました。