July 1, 2018

エンティティ解決のためのタプルの分散表現

Key Points

Key points are not available for this paper at this time.

Abstract

エンティティ解決（ER）のすべての側面にわたる70年以上の努力にもかかわらず、データのラベリングにおける人間の関与を減らし、フィーチャーエンジニアリングを行い、パラメータを調整し、ブロッキング関数を定義することによってERを民主化するという高い需要が依然として存在します。最近の深層学習の進展、特に単語の分散表現（いわゆるワード埋め込み）を用いて、良好な精度、高い効率、および使いやすさ（すなわち、はるかに少ない人間の努力）を実現する新しいERシステムであるDeep ERを提案します。各タプルを分散表現（すなわち、ベクトル）に変換するために、高度な構成手法、具体的には長短期記憶（LSTM）隠れユニットを持つ単方向および双方向再帰神経ネットワーク（RNN）を使用し、それによってタプル間の類似性を効果的に捉えることができます。事前学習されたワード埋め込みが利用可能な場合と利用できない場合の両方を考慮し、異なるシナリオ下で特定のERタスクにカスタマイズされた分散表現を学習し調整する方法を示します。すべてのタプルの属性を考慮し、従来の手法がごくわずかの属性しか考慮しないのに対して、はるかに小さなブロックを生成するローカリティセンシティブハッシング（LSH）ベースのブロッキングアプローチを提案します。我々は、複数のデータセット（ベンチマーク、生物医療データ、および多言語データを含む）でアルゴリズムを評価し、広範な実験結果はDeep ERが既存のソリューションを上回ることを示しています。

AIに質問

Bookmark