tossyi / paper-reading

Summary for myself when reading a paper
0 stars 0 forks source link

[2020]Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks  #1

Open tossyi opened 3 years ago

tossyi commented 3 years ago

Paper Link

https://arxiv.org/abs/2004.10964

https://slideslive.com/38929123/dont-stop-pretraining-adapt-language-models-to-domains-and-tasks

Upload

2020/04/23

What is paper about?

Paper Contributions

Key Points

Validate advantages and Effectiveness

Points to discuss

Related Work

repository

https://github.com/allenai/dont-stop-pretraining

tossyi commented 3 years ago

RoBERTaを言語モデルとして選択。 RoBERTaをベースにし、4つのドメインでドメイン適用のための再事前学習(DAPT)を行った。 L_TPBはDAPTの前のloss, L_DAPTはDAPT後のlossを表している。 RoBERTaを各ドメインに対して、12.5K step再事前学習している。 image

tossyi commented 3 years ago
tossyi commented 3 years ago

計4つのドメイン適用型モデルをタスクに応じて、fine-tuningしている。 タスクは4 x 2 = 8通り。関係分類、論文の文分類、引用分類、政党分類?、トピック分類、有用レビュー分類、感情分類 ベースライン手法はRoBERTaを各分類タスクに対してfine-tuningしたモデルを利用する

image

tossyi commented 3 years ago

ドメインごとの性能比較   ・RoBERTa   ・DAPT   ・not DAPT(NEWS task -> CS pre-training, REVIEWS -> BIOMED, CS -> NEWS, BIOMED -> REVIEWS で試している。これは overlap の統計情報を参考にして決めている) →DAPTが性能が高いことから、ドメインに特化した再事前学習は有効 →not DAPTはRoBAより性能が落ちることから、ドメイン以外のコーパスでの再事前学習は有効でない →しかし、CSにおいては、not DAPTがRoBAよりわずかに性能が良い →ドメインによっては、追加のデータを用いた再事前学習が有効であるかもしれない [Baevski+ 2019]Alexei Baevski, Sergey Edunov, Yinhan Liu, Luke Zettlemoyer, and Michael Auli. 2019. Cloze-driven pretraining of self-attention networks. In EMNLP.

image

tossyi commented 3 years ago

image

tossyi commented 3 years ago

TAPT

タスクと同じドメインの再事前学習を行う。 DAPTでは12.5K stepsの学習だったが、TAPTでは100epochs。 epoch間で異なる単語をランダムにマスクする(確率は0.15)ことで人工的にデータセットを拡張する

結果からわかること

image

tossyi commented 3 years ago

Cross-Task Transfer

あるタスクのTAPTが他のタスクにも応用できるか実験したもの 例えば、BIOMEDドメインでRCTタスクのラベル無しデータでTAPTしたモデルをCHEMPROTタスクのラベル付きデータでfine-tuneする。 これを本論文では、Transfer-TAPTと呼ぶ。 Transfer-TAPTはいずれも性能を落とすことがわかった。このことから、TAPTは単一のタスクのみに適用する。

image

tossyi commented 3 years ago

Augmenting Training Data for TAPT

Human Curated-TAPT

RCT, HyperPartisan and IMDBの3つのタスクは人間が作成したラベル無しデータを利用する タスクと同じ分布のデータをTAPTに利用するため、curated-TAPTを行う (実施する理由としてCross-Task Transferでは、性能は下がったが、タスクと同じ分布データであれば性能は上がると思われるため)

データ

・RCTタスクの教師有りデータを180Kのうち、500例にダウンサンプリング。残りのデータはラベル無しデータとして、扱う。 ・HyperPartisanタスクは低リソースと高リソースがあり、高リソースから5Kの文書を用いて Curated-TAPTの再事前学習を行った。低リソースはfine-tuningに利用した ・IMDBでは、ラベル付きデータと同じ分布から、タスクアノテータが手動で精査した追加のラベルなしデータを利用した

結果としては ・curated-TAPTは高い性能を示す ・DAPT+Curated-TAPTはさらに良い

→タスクの分布と同じデータでTAPTをすると、高い性能を示すことがわかった

image

Automated Data Selection for TAPT

人間が作成したデータが利用できない場合に、TAPTに関連するデータを、ドメイン内のラベルなしデータから取り出す方法について検討する。 少ないリソースでTAPTの効果を発揮できるような低リソースのシナリオを考える。 大量のデータからタスクに適したラベル無しテキストからタスクの分布に沿ったデータを見つける。  →VAMPIRE[Gururangan+ 2019]というBOW型モデルを提案する

VAMPIREにより最近傍選択(kNN-TAPT)を行う→結果として、kNN-TAPTのKを増やすことでDAPTに迫る性能を得た

image

image

tossyi commented 3 years ago

Computational Requirements

  →Curated-TAPTが良い結果 このことから、少ないリソースでタスクにあったデータを用意して 再事前学習することが有効であることを示した →DAPT + TAPTもそこそこ良い結果なので、ドメインデータがあり、タスクの分布にあったデータもある場合は両方やったほうがよい

image

tossyi commented 3 years ago

この論文で試した部分 image