morioka / reading

0 stars 0 forks source link

A BERT-based Dual Embedding Model for Chinese Idiom Prediction #32

Open morioka opened 3 years ago

morioka commented 3 years ago

https://twitter.com/arxiv_cscl/status/1324285505526259713

https://arxiv.org/abs/2011.02378

A BERT-based Dual Embedding Model for Chinese Idiom Prediction Minghuan Tan, Jing Jiang Singapore Management University Chinese idioms are special fixed phrases usually derived from ancient stories, whose meanings are oftentimes highly idiomatic and non-compositional. The Chinese idiom prediction task is to select the correct idiom from a set of candidate idioms given a context with a blank. We propose a BERT-based dual embedding model to encode the contextual words as well as to learn dual embeddings of the idioms. Specifically, we first match the embedding of each candidate idiom with the hidden representation corresponding to the blank in the context. We then match the embedding of each candidate idiom with the hidden representations of all the tokens in the context thorough context pooling. We further propose to use two separate idiom embeddings for the two kinds of matching. Experiments on a recently released Chinese idiom cloze test dataset show that our proposed method performs better than the existing state of the art. Ablation experiments also show that both context pooling and dual embedding contribute to the improvement of performance. ![image](https://user-images.githubusercontent.com/1615546/98460595-15192c80-21e9-11eb-9666-aa4d85f4ebb3.png) 中国のイディオム予測のためのBERTベースのデュアル埋め込みモデル Minghuanタン、ジンジャン 中国のイディオムは、通常は古代の物語から派生した特別な固定フレーズであり、その意味はしばしば非常に慣用的で非構成的です。中国のイディオム予測タスクは、空白のコンテキストが与えられた候補イディオムのセットから正しいイディオムを選択することです。文脈上の単語をエンコードし、イディオムの二重埋め込みを学習するために、BERTベースの二重埋め込みモデルを提案します。具体的には、最初に、各候補イディオムの埋め込みを、コンテキスト内の空白に対応する非表示の表現と照合します。次に、各候補イディオムの埋め込みを、コンテキストプーリングを介したコンテキスト内のすべてのトークンの非表示の表現と照合します。さらに、2種類のマッチングに2つの別々のイディオム埋め込みを使用することを提案します。最近リリースされた中国のイディオムクローズテストデータセットでの実験は、提案された方法が既存の最先端技術よりも優れていることを示しています。アブレーション実験は、コンテキストプーリングとデュアル埋め込みの両方がパフォーマンスの向上に寄与することも示しています。 COLING2020