Open tossyi opened 3 years ago
RoBERTaを言語モデルとして選択。 RoBERTaをベースにし、4つのドメインでドメイン適用のための再事前学習(DAPT)を行った。 L_TPBはDAPTの前のloss, L_DAPTはDAPT後のlossを表している。 RoBERTaを各ドメインに対して、12.5K step再事前学習している。
計4つのドメイン適用型モデルをタスクに応じて、fine-tuningしている。 タスクは4 x 2 = 8通り。関係分類、論文の文分類、引用分類、政党分類?、トピック分類、有用レビュー分類、感情分類 ベースライン手法はRoBERTaを各分類タスクに対してfine-tuningしたモデルを利用する
ドメインごとの性能比較 ・RoBERTa ・DAPT ・not DAPT(NEWS task -> CS pre-training, REVIEWS -> BIOMED, CS -> NEWS, BIOMED -> REVIEWS で試している。これは overlap の統計情報を参考にして決めている) →DAPTが性能が高いことから、ドメインに特化した再事前学習は有効 →not DAPTはRoBAより性能が落ちることから、ドメイン以外のコーパスでの再事前学習は有効でない →しかし、CSにおいては、not DAPTがRoBAよりわずかに性能が良い →ドメインによっては、追加のデータを用いた再事前学習が有効であるかもしれない [Baevski+ 2019]Alexei Baevski, Sergey Edunov, Yinhan Liu, Luke Zettlemoyer, and Michael Auli. 2019. Cloze-driven pretraining of self-attention networks. In EMNLP.
タスクと同じドメインの再事前学習を行う。 DAPTでは12.5K stepsの学習だったが、TAPTでは100epochs。 epoch間で異なる単語をランダムにマスクする(確率は0.15)ことで人工的にデータセットを拡張する
あるタスクのTAPTが他のタスクにも応用できるか実験したもの 例えば、BIOMEDドメインでRCTタスクのラベル無しデータでTAPTしたモデルをCHEMPROTタスクのラベル付きデータでfine-tuneする。 これを本論文では、Transfer-TAPTと呼ぶ。 Transfer-TAPTはいずれも性能を落とすことがわかった。このことから、TAPTは単一のタスクのみに適用する。
RCT, HyperPartisan and IMDBの3つのタスクは人間が作成したラベル無しデータを利用する タスクと同じ分布のデータをTAPTに利用するため、curated-TAPTを行う (実施する理由としてCross-Task Transferでは、性能は下がったが、タスクと同じ分布データであれば性能は上がると思われるため)
・RCTタスクの教師有りデータを180Kのうち、500例にダウンサンプリング。残りのデータはラベル無しデータとして、扱う。 ・HyperPartisanタスクは低リソースと高リソースがあり、高リソースから5Kの文書を用いて Curated-TAPTの再事前学習を行った。低リソースはfine-tuningに利用した ・IMDBでは、ラベル付きデータと同じ分布から、タスクアノテータが手動で精査した追加のラベルなしデータを利用した
結果としては ・curated-TAPTは高い性能を示す ・DAPT+Curated-TAPTはさらに良い
→タスクの分布と同じデータでTAPTをすると、高い性能を示すことがわかった
人間が作成したデータが利用できない場合に、TAPTに関連するデータを、ドメイン内のラベルなしデータから取り出す方法について検討する。 少ないリソースでTAPTの効果を発揮できるような低リソースのシナリオを考える。 大量のデータからタスクに適したラベル無しテキストからタスクの分布に沿ったデータを見つける。 →VAMPIRE[Gururangan+ 2019]というBOW型モデルを提案する
VAMPIREにより最近傍選択(kNN-TAPT)を行う→結果として、kNN-TAPTのKを増やすことでDAPTに迫る性能を得た
→Curated-TAPTが良い結果 このことから、少ないリソースでタスクにあったデータを用意して 再事前学習することが有効であることを示した →DAPT + TAPTもそこそこ良い結果なので、ドメインデータがあり、タスクの分布にあったデータもある場合は両方やったほうがよい
この論文で試した部分
Paper Link
https://arxiv.org/abs/2004.10964
https://slideslive.com/38929123/dont-stop-pretraining-adapt-language-models-to-domains-and-tasks
Upload
2020/04/23
What is paper about?
Paper Contributions
Key Points
Validate advantages and Effectiveness
Points to discuss
Related Work
repository
https://github.com/allenai/dont-stop-pretraining