[2020]Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks

tossyi commented 3 years ago

Paper Link

https://arxiv.org/abs/2004.10964

https://slideslive.com/38929123/dont-stop-pretraining-adapt-language-models-to-domains-and-tasks

Upload

2020/04/23

What is paper about?

事前学習済みモデルをドメインで再事前学習した場合(DAPTと呼ぶ)と解きたいタスクのデータセットで再事前学習した場合(TAPTと呼ぶ)での分類タスクの性能評価を行った

Paper Contributions

DAPTやTAPTが分類性能向上に寄与することを示した
TAPTを行う際のデータ選定方法による比較を行った(human-curated TAPT, 自動選択TAPT(VAMPIRE))

Key Points

DAPTでは対象のドメインで行う必要がある（他のドメインで行うと性能が下がる）
TAPTを用いることで、DAPTと比較し、相対的に少ないリソースで高性能を示す → タスクと近いデータセットを選択し、再事前学習を行うことが有効
DAPT+TAPTの組み合わせは有効

Validate advantages and Effectiveness

4つのドメイン(生物医学論文、CS論文、ニュース、Amazonレビュー)と8つの分類タスクで実験

Points to discuss

今回実験したドメイン以外でも有効なのか？

Related Work

[Gururangan+ 2019] Variational Pretraining for Semi-supervised Text Classification 論文中にVAMPIREという近いデータセットを選択する手法が出てくるが、上記の論文で発表された内容のようだ

repository

https://github.com/allenai/dont-stop-pretraining

tossyi commented 3 years ago

RoBERTaを言語モデルとして選択。 RoBERTaをベースにし、4つのドメインでドメイン適用のための再事前学習(DAPT)を行った。 L_TPBはDAPTの前のloss, L_DAPTはDAPT後のlossを表している。 RoBERTaを各ドメインに対して、12.5K step再事前学習している。

tossyi commented 3 years ago

ドメイン間の類似性の分析ドメイン毎にストップワードを除外した頻度top 10Kの単語同士で重複度を調べた。

tossyi commented 3 years ago

計4つのドメイン適用型モデルをタスクに応じて、fine-tuningしている。タスクは4 x 2 = 8通り。関係分類、論文の文分類、引用分類、政党分類?、トピック分類、有用レビュー分類、感情分類ベースライン手法はRoBERTaを各分類タスクに対してfine-tuningしたモデルを利用する

tossyi commented 3 years ago

ドメインごとの性能比較　　・RoBERTa 　　・DAPT 　　・not DAPT(NEWS task -> CS pre-training, REVIEWS -> BIOMED, CS -> NEWS, BIOMED -> REVIEWS で試している。これは overlap の統計情報を参考にして決めている) →DAPTが性能が高いことから、ドメインに特化した再事前学習は有効 →not DAPTはRoBAより性能が落ちることから、ドメイン以外のコーパスでの再事前学習は有効でない →しかし、CSにおいては、not DAPTがRoBAよりわずかに性能が良い →ドメインによっては、追加のデータを用いた再事前学習が有効であるかもしれない [Baevski+ 2019]Alexei Baevski, Sergey Edunov, Yinhan Liu, Luke Zettlemoyer, and Michael Auli. 2019. Cloze-driven pretraining of self-attention networks. In EMNLP.

tossyi commented 3 years ago

Domain Overlap ドメイン間の境界はファジー（曖昧）である。ドメインの領域の枠を超えて再事前学習を行うことで、より効果的なDAPTができる可能性はある。例えば、レビューとニュースの間で単語の40%は共有されている。各ドメインが相互に排他的ではないので、組み合わせ次第では、よくなるかもしれない。

tossyi commented 3 years ago

TAPT

タスクと同じドメインの再事前学習を行う。 DAPTでは12.5K stepsの学習だったが、TAPTでは100epochs。 epoch間で異なる単語をランダムにマスクする（確率は0.15）ことで人工的にデータセットを拡張する

結果からわかること

TAPTはRoBERTaより改善している
概ね、DAPTの方が性能が良いが、TAPTはDAPTと同等の性能もしくはTAPTの方が良いこともある
DAPTは多くのリソースが必要だが、TAPTは相対的に少ないリソースで高性能を示す
DAPT + TAPTの結果から、ドメインとタスクの両方の再事前学習が有効

tossyi commented 3 years ago

Cross-Task Transfer

あるタスクのTAPTが他のタスクにも応用できるか実験したもの例えば、BIOMEDドメインでRCTタスクのラベル無しデータでTAPTしたモデルをCHEMPROTタスクのラベル付きデータでfine-tuneする。これを本論文では、Transfer-TAPTと呼ぶ。 Transfer-TAPTはいずれも性能を落とすことがわかった。このことから、TAPTは単一のタスクのみに適用する。

tossyi commented 3 years ago

Augmenting Training Data for TAPT

Human Curated-TAPT

RCT, HyperPartisan and IMDBの3つのタスクは人間が作成したラベル無しデータを利用するタスクと同じ分布のデータをTAPTに利用するため、curated-TAPTを行う (実施する理由としてCross-Task Transferでは、性能は下がったが、タスクと同じ分布データであれば性能は上がると思われるため）

データ

・RCTタスクの教師有りデータを180Kのうち、500例にダウンサンプリング。残りのデータはラベル無しデータとして、扱う。・HyperPartisanタスクは低リソースと高リソースがあり、高リソースから5Kの文書を用いて　Curated-TAPTの再事前学習を行った。低リソースはfine-tuningに利用した・IMDBでは、ラベル付きデータと同じ分布から、タスクアノテータが手動で精査した追加のラベルなしデータを利用した

結果としては・curated-TAPTは高い性能を示す・DAPT+Curated-TAPTはさらに良い

→タスクの分布と同じデータでTAPTをすると、高い性能を示すことがわかった

Automated Data Selection for TAPT

人間が作成したデータが利用できない場合に、TAPTに関連するデータを、ドメイン内のラベルなしデータから取り出す方法について検討する。少ないリソースでTAPTの効果を発揮できるような低リソースのシナリオを考える。大量のデータからタスクに適したラベル無しテキストからタスクの分布に沿ったデータを見つける。　 →VAMPIRE[Gururangan+ 2019]というBOW型モデルを提案する

VAMPIREにより最近傍選択（kNN-TAPT）を行う→結果として、kNN-TAPTのKを増やすことでDAPTに迫る性能を得た

tossyi commented 3 years ago

Computational Requirements

　 →Curated-TAPTが良い結果このことから、少ないリソースでタスクにあったデータを用意して再事前学習することが有効であることを示した →DAPT + TAPTもそこそこ良い結果なので、ドメインデータがあり、タスクの分布にあったデータもある場合は両方やったほうがよい

tossyi commented 3 years ago

この論文で試した部分

tossyi / paper-reading