Open schnell3526 opened 2 years ago
12の中国語のタスクを行なったとのこと。
事前学習にあたりモデルのパラメタはgoogle BERTに従い、12層768次元、attention head sizeは12に設定しているとのこと。
8種類の中国語タスク(単文分類、2文分類、固有表現認識、QAマッチング)で評価。
Book_review: 中国のSNS(Douban)から収集された、正例負例それぞれ20,000件の単文分類問題
Chnesenticorp: ホテルのレビューデータセット。正例負例それぞれ6,000件の単文分類問題
Shopping: オンラインショッピングサイトのレビューデータセット。正例21,111件、負例18,889件の単文分類問題
Weibo: Wwiboからした感情分類のデータセット。正例負例それぞれ60,000件の単文分類問題
XNLI: 言語横断的な言語理解データセット。2文の関係を('entailment', 'contradict', 'neutral')に分類
LCQMC: 2つの質問が同じ意図でされたかいなかに分類
NLPCC-DBQA: どの質問だ与えられた文章に対しての質問か分類
MSRA-NER: 固有表現認識。マイクロソフトにより作成
soft-positin indexやvisible matrixの影響について実験を行なっている。 知識グラフを挿入した場合は収束が早いそう、またvisible matrixはやはり有効とのこと。 🤔visible matrixのようなものはtransformerでグラフデータを表す場合によくみますがこの論文が先駆けだったのかな?
入力を調整するだけでドメイン特化タスクが有効に解けているのは実装の容易さという点で良いと感じた。
知識グラフの関係そのものを自然言語として入力文に埋め込むので、当然関係を表す単語はモデルの語彙に入っていないといけない。関係のラベルをどのように設計するかもミソになりそうだと感じる。
パラメタやデータセットが中華版Google Driveのようなので面倒臭い。
リンク
出版年
2019
概要
BERTの入力を工夫し、知識グラフの情報を埋め込む手法を提案。
入力文に直接知識グラフ中のトリプルを埋め込み、softposition index と visible matrix を導入して元の文の並びや構造は保持させる。