Key points are not available for this paper at this time.
私たちは、NLPコミュニティのための新しいリソース、すなわち、3.5M以上の文からなる*一般的な表現*の大規模な知識ベースを提示します。例としては「木は大気中の二酸化炭素を除去する」という文があり、複数のコーパスから収集されました。これは、抽出またはクラウドソースされたトリプルとは対照的に*自然に発生する*一般的な文を含む初の大規模リソースであり、高品質で、一般的で意味的に完全な表現が豊富です。すべてのGenericsKB文には、そのトピカル用語、周囲の文脈(文)、および(学習された)信頼度が注釈として付与されています。また、GenericsKB-Best(100万文以上)も公開しており、GenericsKBの中で最高品質の一般表現に、WordNetやConceptNetから選ばれた合成された一般表現が加えられています。多段推論を必要とする既存の2つのデータセット(OBQAおよびQASC)でのテストでは、GenericsKBを使用することで、はるかに大きなコーパスを使用するよりも高いスコアとより良い説明が得られることが分かりました。これにより、GenericsKBがNLPアプリケーションにとって有用なリソースになり、一般的な表現とその意味論の言語学的研究のためのデータを提供できることが示されています。GenericsKBはhttps://allenai.org/data/genericskbで入手可能です。
Bhakthavatsalamら(Sat,)はこの問題を研究しました。