Don't Stop Pretraining: Adapt Language Models to Domains and Tasks

seopbo commented 4 years ago

어떤 내용의 논문인가요? 👋

다양한 데이터를 이용해 사전학습한 모델들이 최근 NLP의 토대를 만들어가는 상황에서, 특정 도메인이나 테스크에 더 근접한 데이터로 추가 사전학습을 한다면 성능이 더 좋아지는지에 대한 궁금증을 실험을 통해 풀어보는 논문.

Abstract (요약) 🕵🏻‍♂️

Language models pretrained on text from a wide variety of sources form the foundation of today’s NLP. In light of the success of these broad-coverage models, we investigate whether it is still helpful to tailor a pretrained model to the domain of a target task. We present a study across four domains (biomedical and computer science publications, news, and reviews) and eight classification tasks, showing that a second phase of pretraining indomain (domain-adaptive pretraining) leads to performance gains, under both high- and low-resource settings. Moreover, adapting to the task’s unlabeled data (task-adaptive pretraining) improves performance even after domain-adaptive pretraining. Finally, we show that adapting to a task corpus augmented using simple data selection strategies is an effective alternative, especially when resources for domain-adaptive pretraining might be unavailable. Overall, we consistently find that multiphase adaptive pretraining offers large gains in task performance.

사전학습된 (broad-coverage)모델을 도메인과 테스크에 맞게 조정하는 것이 유익한지 연구.
4개의 도메인에서 추가적인 (second phase) domain-adaptive 사전학습으로 8가지 분류 테스크에 대한 성능 향상을 확인.
domain-adaptive 사전학습 후, (third phase) task-adaptive 사전학습으로 추가적인 성능 향상 확인.
마지막으로, 사전학습을 위한 데이터가 부족한 환경에서 task corpus 를 augment 할 수 있는 간단한(?) 전략들을 소개.

이 논문을 읽어서 무엇을 배울 수 있는지 알려주세요! 🤔

Introduction

최근 다양한 대량의 데이터로 사전학습한 모델들이 많은 테스크에서 좋은 성능을 보여주고 있음.
이런 상황에서 특정 테스크에 대한 textual domain을 고려하는 것이 여전히 유의미한지 의문.
특히, 주어진 labeled data 의 크기나 사전학습과 타겟 도메인이 얼마나 유사한지에 따라 효과가 어떻게 달라지는 지 알려진바가 없음.

RoBERTa를 기준으로, DAPT(domain-adaptive pretraining)가 데이터의 많고 적음과 상관없이 성능을 향상시킴.
Task-relevant corpus를 이용한 TAPT(task-adaptive pretraining) 역시 효과적.
Manually curated 된 추가적인 데이터(from the task distribution)를 이용한 경우 성능이 더 좋아짐.
(위의 결과에 영감을 받아)데이터가 부족한 환경에서 도메인 corpus로부터, task-relevant corpus를 선택할 수 있는 방법과 효과를 제시.
Contributions:
- 4 도메인, 8 테스크, high/low-resource에 대한 DAPT, TAPT 분석
- Transferablility of TAPT
- Human-curated 데이터셋을 이용한 사전학습의 중요성, task-relevant 데이터 선택 방법 제시.

Domain-Adaptive Pretraining

RoBERTa 를 대량의 도메인 관련 텍스트로 추가 사전학습을 진행
L: masked LM loss

Analyzing Domain Similarity

도메인 Vocabulary(top 10K most frequent) 을 이용하여 설정된 도메인 간 유사도를 분석.
RoBERTa 의 사전학습 도메인 Vocabulary로 BOOKCORPUS, STORIES, WIKIPEDIA, REALNEWS 를 사용. (Original corpus is not released.)

RoBERTa 의 사전학습 도메인과 NEWS, REVIEWS 의 도메인의 단어가 많이 겹치고, CS, BIOMED 도메인과는 거리가 있음.
The more dissimilar the domain, the higher the potential for DAPT.
도메인 별 테스크 및 데이터셋:

실험 결과 대부분의 테스크에서 DAPT 가 RoBERTa 보다 나은 성능을 보임.
도메인이 많이 겹치는 NEWS 에서 AGNEWS 는 성능 향상이 없었으나 HYPERPARISAN 에서는 이득이 있었음(may be useful).

Domain Relevance for DAPT

모델의 성능 향상이 단지 더 많은 데이터에 노출되었기 때문일 수도 있으므로, 테스크와 다른 도메인에서 사전학습을 후 성능 측정.(¬DAPT 참고)
Domain relevance 테스트는 Figure 2 의 overlap 데이터를 참고하여 설정함.

DAPT LM	Task
CS	NEWS
BIOMED	REVIEWS
NEWS	CS
REVIEWS	BIOMED

DAPT 가 ¬DAPT 보다 훨씬 성능이 좋고, RoBERTa 도 대부분 ¬DAPT 보다 성능이 좋다.(즉, 도메인을 고려하는 것이 중요하다.)

Domain Overlap

도메인 간 mutually exclusive 하기는 어렵다.(특히, REVIEW와 NEWS)
NEWS 도메인의 DAPT 모델이 REVIEW에서 성능이 나쁘지 않았음(HELPFULNESS: 65.5, IMDB:95.0)
관습적인 도메인의 경계를 벗어난 사전학습이 유용할 수도 있음(future work)
그러나 일반적으로, 사전학습을 설계하거나 도메인 외의 generalization abilities 를 평가하는 벤치마크를 생성할 때는 데이터의 출처가 중요.

Task-Adaptive Pretraining

TAPT 는 태스크에 대한 unlabeled 데이터셋으로 사전학습 하는 것을 의미.
DAPT 보다 크기는 작지만, 주어진 태스크에 더 가까운 corpus 를 사용.
DAPT 에 비해 학습 비용이 상대적으로 저렴하며, DAPT 와 비교해서 경쟁력 있는 성능을 보여주었음.

Experiments

(DAPT 와 유사하게) 사전학습된 RoBERTa 에 second phase 사전학습으로 TAPT 를 진행.
100 epochs(c.f. 12.5K in DAPT), augment each dataset by randomly masking different words.
모든 도메인의 태스크에서 RoBERTa 보다 좋은 성능을 보임.
DAPT 보다 적은 자원으로 비슷한 효과를 낼 수 있는 효율적인 adaptation technique.

Combined DAPT and TAPT

RoBERTa 에 DAPT 를 적용한 후에 TAPT 를 수행하였음.
실험 모델 중, 가장 컴퓨팅 비용이 비싼 설정.
모든 태스크에서 가장 좋은 성능을 달성.
TAPT 후 DAPT 를 적용은 catastrophic forgetting 으로 인해 성능이 더 나빠질 것으로 추측(적용 순서 연구는 future work)

Cross-Task Transfer

같은 도메인에서 특정 태스크에서 수행한 TAPT 가 다른 태스크에 transfer 되는지 실험.

실험 결과, TAPT 가 다른 태스크에서의 성능이 하락할 정도로 단일 태스크에 모델을 최적화 시킨다는 것을 확인.
같은 도메인에서도 태스크에 따라 데이터의 분포가 다를 수 있다는 것을 보여주었음.(= DAPT 만으로 충분치 않은 이유)

Augmenting Training Data for Task-Adaptive Pretraining

앞선 TAPT 실험에서는 supervised 태스크의 학습 데이터를 이용하였음.
태스크를 위한 데이터셋과 분포가 비슷한 unlabeled 데이터를 확보할 수 있는 환경에서 추가 실험을 진행.

Human Curated-TAPT

특정 태스크를 위한 데이터셋은 일반적으로 도메인 내의 이용 가능한 텍스트 중에서 일부분을 선별(based on budget)하여 만들어짐.
태스크 데이터셋이 포함되어 있던 source 데이터는 태스크 학습 데이터와 비슷한 분포를 가질 것으로 기대.
larger unlabeled 데이터를 확보할 수 있는 RCT, HYPERPARTISAN, IMDB 에 대해 실험을 진행.

Curated-TAPT 가 모든 데이터셋에 대해서 성능이 좋았음.
특히, RCT 의 기존 데이터의 0.3%만 사용하고 나머지는 unlabeled 데이터 형태로 TAPT 를 적용하여 DAPT+TAPT 성능의 95%를 달성.
태스크 설계 시, unlabeled data pool 도 공개해주면 사전학습에 도움이 될 수 있다고 언급.

Automated Data Selection for TAPT

풍부한 도메인 corpus 에서 태스크 데이터셋과 비슷한 unlabeled 텍스트를 retrieve 하는 방법을 제안.
TAPT 에 사용할 unlabeled 데이터가 부족하거나 DAPT 를 위한 컴퓨팅 리소스가 부족한 경우에 효과적.

같은 공간에 태스크 데이터와 도메인 데이터를 임베딩 한 뒤에, 태스크 데이터와 유사한 도메인 데이터를 선택.
모든 문장을 적당한 시간에 임베딩할 수 있는 lightweight 임베딩 방법이 필요하여 VAMPIRE(Gururangan et al., 2019)를 활용.
실험을 통해 nearest neighbors selection 방법(kNN-TAPT)과 랜덤 선택(RAND-TAPT) 방법을 비교.

실험결과, RAND-TAPT < kNN-TAPT
kNN-TAPT 에서 k가 증가하면서 성능도 좋아지면서 DATP의 성능에 근접.
더 정교한 data selection 방법은 future work.

Conclusion

큰 모델도 (여전히) 한 도메인의 복잡한 특성들을 encode 하는 것이 어렵다.
따라서, 도메인과 태스크에 대해 사전학습을 하는 것은 큰 도움이 된다.

같이 읽어보면 좋을 만한 글이나 이슈가 있을까요?

VAMPIRE

레퍼런스의 URL을 알려주세요! 🔗

원문 https://arxiv.org/pdf/2004.10964.pdf
VAMPIRE 에 대한 논문(Variational Pretraining for Semi-supervised Text Classification) https://www.aclweb.org/anthology/P19-1590.pdf
Universal Language Model Fine-tuning for Text Classification(ULMFiT) https://www.aclweb.org/anthology/P18-1031.pdf

Beomi commented 4 years ago

[질문]

Target Domain과 RoBERTa LM이 이미 알고 있는 Domain과의 차이를 알기 위해 vocab 비교를 했다고 하고, 동시에 이후 학습을 진행하는 과정에 있어서 RoBERTa를 더 학습시키는 방향으로 학습을 진행한 것으로 보입니다.

그렇다면, RoBERTa에 사용한 Vocab과, 추가로 학습을 진행하는 BioMed등의 Target Dataset의 vocab이 차이가 나고 이로 인해 OOV가 발생하거나 혹은 발생하지 않더라도 기존 LM이 이해하는 vocab과는 다른 방향이 될 것 같은데, 이게 가능한 것이 영어로 해서 결과적으로 alphabets로 쪼개질 수 있기 때문에 가능한 것일까요?

잘 정제된 noise 적은 데이터로 학습한 tokenizer를 Noisy data에 적용할 경우 tokenizer가 제대로 encode를 해주지 않는(우리가 바라는 것처럼 보이지 않는) 이슈가 있는데, 이 부분 역시도 '대충 자르기만 해줘도' 동작할 거라고 기대하는게 맞을까요?

soeque1 commented 4 years ago

[질문]

Automated Data Selection for TAPT 시 연구에서 제시한 방법 외에 무엇이 있을까요?

diligejy commented 4 years ago

제가 기초를 잘 몰라서 허접한 질문이라도 양해 부탁드립니다.

1장 Introduction 부분에 보면

we consider domains defined around genres and forums, but it is also possible to induce a domain from a given corpus used for a task, such as the one used in supervised training of a model.

이런 내용이 나오고 이 내용이

This raises the question of whether pretraining on a corpus more directly tied to the task can further improve performance.

다음과 같은 문장과 연결된다고 합니다.

[질문] ⓐ genres and forums는 사전에 정의된 도메인을 의미하는건가요? ⓑ induce a domain from a given corpus는 예시로 supervised training을 들고 있는데 corpus에서 Topic을 뽑아낸다는 개념으로 이해하면 될까요?

잘은 모르지만 문장 자체의 논리로만 보자면 given corpus에서 domain을 induce할 수 있기 때문에 pretraining이 performance를 improving할 수 있는지에 대한 의문을 제시한다는 건데

이게 어떤 의미인지, 어떤 논리적 연관성이 있는지 잘 모르겠습니다.

diligejy commented 4 years ago

Table 1을 보면 NEWS와 REVIEWS에서는 DAPT 적용 이후 Loss값이 증가하거나 혹은 2.1 vs 1.93로 유의미한 차이가 나타나지 않는다고 생각이 듭니다.

BIOMED와 CS에 비해 왜 NEWS와 REVIEWS에서는 Loss값이 증가하거나 유의미한 차이가 없는걸까요?

Appendix E에 나온대로 ROBERTA’s pretraining corpus and NEWS are closer, and BIOMED to CS (relative to other domains). pretraining corpus와 NEWS 데이터가 close하기 때문일까요?

Table 1과 Table 3을 보면, Table 1에서는 Loss값이 증가하는 경우도 있었는데 Table3에서는 모든 Domain에서 좋은 성능이 나오거나 비슷한 성능이 나오는 걸 확인할 수 있는데 이건 왜 그런걸까요?

diligejy commented 4 years ago

여기서 빨간색으로 표시한 RCT, AGNEWS , IMDB를 보면 기존 ROBERT와 유의미한 성능 차이가 있다고 보기 힘든거 같습니다. 그럼에도 전반적으로 TAPT가 일반적인 ROBERT보다 성능이 좋으니 더 좋은 모델이다 이렇게 해석해야 할까요?

아니면 DAPT is more resource intensive (see Table 9 in §5.3), but TAPT manages to match its performance in some of the tasks, such as SCIERC. In RCT, HYPERPARTISAN, AGNEWS, HELPFULNESS, and IMDB, the results even exceed those of DAPT, highlighting the efficacy of this cheaper adaptation technique.

이 문장에서 나와있듯이 자원을 덜 쓰는데 효율이 나오는 가성비 있는 모델이니까 써야 하는걸까요? 혹시 ROBERT보다 TAPT가 더 Resource를 덜 쓸까요?(제가 잘 몰라서요)

HYPERPARTISAN TASK에서 TAPT보다 DAPT + TAPT가 성능이 떨어지는 이유는 무엇일까요? 운일까요?

diligejy commented 4 years ago

이 표를 통해 논문 저자는 TAPT의 Catastrophic forgetting 위험성에 대해 경고하고 싶어 하는거 같은데,

CHEMPROT, HYPERPARTISAN, ACL-ARC, HELPFULLNESS는 1이상의 변화가 있어서 동의했지만,
RCT, AGNEWS, SCIERC, IMDB는 1 미만의 변화가 없는 걸 볼 수 있습니다.

[질문]

8개의 TASK중에서 4개는 Transfer-TAPT를 적용하면 많이 떨어지는데, 4개는 별로 차이가 없습니다. 왜 그럴까요? 데이터셋의 특성이 반영된걸까요?

cf. 신기했던 게 각각의 Domain별 Task 1개는 확 떨어지는 반면, 다른 Task는 별 차이가 없기에 신기했습니다. Transfer-TAPT를 쓸 때 50%안에 들기를 바래야 하는건지 궁금했습니다.

emiatej9 commented 4 years ago

@diligejy

[질문]

ⓐ genres and forums는 사전에 정의된 도메인을 의미하는건가요?

도메인을 정의하는 여러가지 관점들이 있는 데, 여기서는 장르나 포럼(또는 토픽) 같이 유사한 단어 분포를 도메인이라고 한 것 같습니다.

ⓑ induce a domain from a given corpus는 예시로 supervised training을 들고 있는데 corpus에서 Topic을 뽑아낸다는 개념으로 이해하면 될까요?

ⓐ 방식 대로 할 수도 있고, 주어진 학습 데이터셋 내에서 도메인을 정의할 수도 있다고 봤습니다. 지도학습에 쓰이는 데이터 내에서 도메인을 정할 수 있다는 건데, 제 생각에 ⓐ 는 DAPT, ⓑ 는 TAPT 에 대한 가설 같습니다.

ⓒ 이러한 내용과 This raises the question of whether pretraining on a corpus more directly tied to the task can further improve performance. 이 문장의 연결관계가 궁금합니다.

ⓑ 라는 가설이 성립한다면, 즉, 지도학습의 데이터 셋도 모델이 학습하기 위해 struggle 해야하는 complexity를 갖는 다면 ⓑ 단위의 데이터셋에 adpative 하게 사전학습을 추가 진행 했을 때, 모델에게 도움이 될 것이라(성능 향상) 생각했던 것 같습니다. 만약 성능향상이 없다면 ⓑ 정도는 RoBERTa 에게 구지 추가 사전학습 시키지 않아도 잘 한다는 이야기고, ⓑ 정도 사이즈의 데이터셋은 하나의 도메인으로 인정하기에는 complexity가 낮다 라고 결론을 냈을 것 같습니다.

emiatej9 commented 4 years ago

@diligejy

BIOMED와 CS에 비해 왜 NEWS와 REVIEWS에서는 Loss값이 증가하거나 유의미한 차이가 없는걸까요?

말씀하신 것 처럼 RoBERTa 의 first phase 사전학습에서 데이터가 NEWS나 REVIEW 와 비슷했기 때문에 그런 것 같다고 얘기합니다. (Figure 2 에서 PT 와 News, Review 가 각각 54.1%, 34.5% 씩 overlap 이 발생했습니다)

hanjiyoon01 commented 4 years ago

제가 기초를 잘 몰라서 허접한 질문이라도 양해 부탁드립니다.

1장 Introduction 부분에 보면

we consider domains defined around genres and forums, but it is also possible to induce a domain from a given corpus used for a task, such as the one used in supervised training of a model.

이런 내용이 나오고 이 내용이

This raises the question of whether pretraining on a corpus more directly tied to the task can further improve performance.

다음과 같은 문장과 연결된다고 합니다.

[질문]

ⓐ genres and forums는 사전에 정의된 도메인을 의미하는건가요?

장르는 텍스트의 장르를 말하는 것 같아요. 신문기사, 소설, 논문 등을 생각하시면 될 것 같고요. 포럼은 좀 재밌는데 어떤 인터넷 사용자 게시판(커뮤니티)에서 긁어왔는지를 말해주는 것 같네요. IMDB는 장르로 볼 때 영화 리뷰면서 IMDB라는 사이트(포럼)에서 발원한 것이 되겠죠. 여기는 안나오지만 보섭님이 다른 예로 들었던 yelp데이터의 경우 장르는 리뷰데이터고 또 출처는 yelp라는 포럼이 되는 것이고요. 또 특이하게 하나의 테스크를 출처로 하는 데이터도 일종의 도메인으로 보신 것 같고요.

modulabs / beyondBERT