Don't Stop Pretraining: Adapt Language Models to Domains and Tasks

0. 論文

Journal/Conference: ACL 2020 Title: Don't Stop Pretraining: Adapt Language Models to Domains and Tasks Authors: Suchin Gururangan, Ana Marasović, Swabha Swayamdipta, Kyle Lo, Iz Beltagy, Doug Downey, Noah A. Smith URL: https://arxiv.org/abs/2004.10964

1. どんなもの？

近年の言語モデルに対して事前学習がタスクに合わせて行うことがどれほど重要かどうか？をDomain adaptive やTask adaptive の観点から検証した． RoBERTA√が特定のドメインのためにそのドメインデータを用いて事前学習を行うことがどの程度の精度向上が見込めるのか？ラベルなしデータを用いるTask adaptive pretrainigでも同様の効果が観られるか？といった点について検証した．

2. 先行研究と比べてどこがすごい？

4つのドメインデータを用いて，事前学習 (domain adaptive やTask adaptive )がどの程度有用なのかどうかを細かに分析した点

3. 技術や手法のキモはどこ？

4. どうやって有効だと検証した？

事前学習したモデルに対して同じドメインの分類タスクを解くことで，精度から事前学習の有効性について確認した．

5. 議論はある？

高コストのDomain task adaptive よりも同じタスクであるラベルなしの少ないデータを用いること (task- domain adaptive )がコストの観点などからも有用であることから，TAPTを増やしより高精度なモデルを作成できることが示唆された．もっと言うと，TAPTで用いたデータを最近傍などで選択しても (少ないデータで事前学習を行っても)，RoBERTよりも有用であることがわかったこれらの点は，SNS応用でも使えそう

本論文で分析を行った範囲

6.次に読むべき論文は？

TAPTの代表例：ACL2018 Universal Language Model Fine-tuning for Text Classification)

メモ

https://github.com/allenai/dont-stop-pretraining 事前訓練がタスクに合わせて調整することがどれほど重要か？について調査 4ドメインと8つの分類タスクを対象にドメイン内の事前訓練がどの程度有用かを検証し，精度向上につながることを示す domain-adaptive pretrainingのリソースが利用できないときでもデータ選択戦略を用いて拡張されたタスクコーパスに適応することが有用である

1 例：RoBERTA：英語の時点やニュース記事などの150GBのテキストで訓練疑問：最新の事前学習モデルは普遍的に機能するのか？それとも特定のドメインのために別の事前学習モデルを構築するのが有用なのか？少ない情報からモデルを構築：BioBertなど Jinhyuk Lee, Wonjin Yoon, Sungdong Kim, Donghyeon Kim, Sunkyu Kim, Chan Ho So, and Jaewoo Kang. 2019. BioBERT: A pre-trained biomedical language representation model for biomedical text mining. Bioinformatics. domain-adaptive pretraining (DAPT)を通じて事前訓練の有効性やタスクデータの量との関係について

タスクに結びついたコーパスを用いてプレトレーニングを行うことで、パフォーマンスを向上させることができるかどうか? task-adaptive pretraining (TAPT)がDAPTと比較してどの程度有用か？→実験では有用だった TAPTの例：あんまりない？ (ACL2018 Universal Language Model Fine-tuning for Text Classification) TAPTはラベルなしデータなどを追加した際に有用貢献・domain -と taks- adaptive pertainingを4のドメインと8つのタスク (low-high resource setttings)で実験・分析・転移可能性を提示・事前学習の重要性を提示

2 Background RoBERTAが事前学習のためのベースラインとな®う RoBERTAの事前学習コーパスは様々な分野から抽出されているが、どの程度の分野をカバーするものなのか？ → 2つのラベルなしデータで探索 (特定ドメインのデータと特定タスクのラベルなしデータ)

3 Domain-adaptive pertaining (DAPT) 4つのドメインのデータセットで事前学習を継続

3.1 analyzIng domain similarity Figure2：サンプル間の語彙の重複

3.2 experiments Table1: 各データセットごとに4つのドメイン適応したLMを作成，損失について記載 Table2: ターゲットとなるテキスト分類問題のリスト Table3: 分類実験の結果全てのドメインでDAPTがRoBERTAよりも改善 ROBERTAのソースドメインからターゲットドメインがより離れている場合にDAPTの利点がある

3.3 Domain Relevance for DAPT 関連しないドメインに適応した場合の精度は低下ドメインの関係性を考慮せずに学習することは，実験が低下する

3.4 Domain Overlap 従来のドメイン境界を越えて事前訓練を行うことで、より効果的なDAPTが得られる可能性を示唆するようなハイライト結果

4 Task-adaptive pretraining (TAPT) 与えられたタスクのためのラベル無しデータセットで事前訓練を行うこと。つまりDAPTよりも小さい事前訓練コーパスを用いるが，よりタスクに関連したコーパスを使用するというもの →TAPTの方がDAPTよりも学習コストが安い

Table5: 実験結果ベースラインを改善した結果を示す．DAPTよりコストが安いのに精度としてはほとんど匹敵

同じドメインの他のタスクへの適応：Transfer-TAPT Table6: 例：RCTのラベルなしデータでpretrainし，CHEMPROTのラベル付きデータでふfine-tuneを行う→精度は低下する →ドメイン内のタスクのデータ分散が異なるため

5 ラベルなしデータの一部にラベルをつけ，TAPTを行うことで精度が向上する (Curated - TAPT) タスク間の分散が似ているため

5.2 低リソースデータしかないシナリオを考えた場合，TAPTのためにタスクの分布に一致するラベル無しデータを検索するための方法を提案ドメインからタスクに関連するデータを見つけ候補を探索：埋め込み空間での最近傍選択 (NN) Table 8: 結果 RANDOMや通常のTAPTよりもい結果が優れている

6 Related works ドメイン適応の様々な手法について検証した Table10 今回の論文で実験を行った組み合わせ

hkefka385 / paper_reading