modulabs / beyondBERT

11.5기의 beyondBERT의 토론 내용을 정리하는 repository입니다.
MIT License
60 stars 6 forks source link

Don't Stop Pretraining: Adapt Language Models to Domains and Tasks #14

Closed seopbo closed 4 years ago

seopbo commented 4 years ago

어떤 내용의 논문인가요? 👋

다양한 데이터를 이용해 사전학습한 모델들이 최근 NLP의 토대를 만들어가는 상황에서, 특정 도메인이나 테스크에 더 근접한 데이터로 추가 사전학습을 한다면 성능이 더 좋아지는지에 대한 궁금증을 실험을 통해 풀어보는 논문.

Abstract (요약) 🕵🏻‍♂️

Language models pretrained on text from a wide variety of sources form the foundation of today’s NLP. In light of the success of these broad-coverage models, we investigate whether it is still helpful to tailor a pretrained model to the domain of a target task. We present a study across four domains (biomedical and computer science publications, news, and reviews) and eight classification tasks, showing that a second phase of pretraining indomain (domain-adaptive pretraining) leads to performance gains, under both high- and low-resource settings. Moreover, adapting to the task’s unlabeled data (task-adaptive pretraining) improves performance even after domain-adaptive pretraining. Finally, we show that adapting to a task corpus augmented using simple data selection strategies is an effective alternative, especially when resources for domain-adaptive pretraining might be unavailable. Overall, we consistently find that multiphase adaptive pretraining offers large gains in task performance.

이 논문을 읽어서 무엇을 배울 수 있는지 알려주세요! 🤔

Introduction

image

Domain-Adaptive Pretraining

image

Analyzing Domain Similarity

image

image

image

Domain Relevance for DAPT

DAPT LM Task
CS NEWS
BIOMED REVIEWS
NEWS CS
REVIEWS BIOMED

Domain Overlap

Task-Adaptive Pretraining

Experiments

image

Combined DAPT and TAPT

Cross-Task Transfer

image

Augmenting Training Data for Task-Adaptive Pretraining

Human Curated-TAPT

image

Automated Data Selection for TAPT

image

image

Conclusion

같이 읽어보면 좋을 만한 글이나 이슈가 있을까요?

image

레퍼런스의 URL을 알려주세요! 🔗

Beomi commented 4 years ago

[질문]

Target Domain과 RoBERTa LM이 이미 알고 있는 Domain과의 차이를 알기 위해 vocab 비교를 했다고 하고, 동시에 이후 학습을 진행하는 과정에 있어서 RoBERTa를 더 학습시키는 방향으로 학습을 진행한 것으로 보입니다.

그렇다면, RoBERTa에 사용한 Vocab과, 추가로 학습을 진행하는 BioMed등의 Target Dataset의 vocab이 차이가 나고 이로 인해 OOV가 발생하거나 혹은 발생하지 않더라도 기존 LM이 이해하는 vocab과는 다른 방향이 될 것 같은데, 이게 가능한 것이 영어로 해서 결과적으로 alphabets로 쪼개질 수 있기 때문에 가능한 것일까요?

잘 정제된 noise 적은 데이터로 학습한 tokenizer를 Noisy data에 적용할 경우 tokenizer가 제대로 encode를 해주지 않는(우리가 바라는 것처럼 보이지 않는) 이슈가 있는데, 이 부분 역시도 '대충 자르기만 해줘도' 동작할 거라고 기대하는게 맞을까요?

soeque1 commented 4 years ago

[질문]

diligejy commented 4 years ago

제가 기초를 잘 몰라서 허접한 질문이라도 양해 부탁드립니다.

1장 Introduction 부분에 보면

we consider domains defined around genres and forums, but it is also possible to induce a domain from a given corpus used for a task, such as the one used in supervised training of a model.

이런 내용이 나오고 이 내용이

This raises the question of whether pretraining on a corpus more directly tied to the task can further improve performance.

다음과 같은 문장과 연결된다고 합니다.

[질문] ⓐ genres and forums는 사전에 정의된 도메인을 의미하는건가요? ⓑ induce a domain from a given corpus는 예시로 supervised training을 들고 있는데 corpus에서 Topic을 뽑아낸다는 개념으로 이해하면 될까요?

ⓒ 이러한 내용과 This raises the question of whether pretraining on a corpus more directly tied to the task can further improve performance. 이 문장의 연결관계가 궁금합니다.

잘은 모르지만 문장 자체의 논리로만 보자면 given corpus에서 domain을 induce할 수 있기 때문에 pretraining이 performance를 improving할 수 있는지에 대한 의문을 제시한다는 건데

이게 어떤 의미인지, 어떤 논리적 연관성이 있는지 잘 모르겠습니다.

diligejy commented 4 years ago

image

Table 1을 보면 NEWS와 REVIEWS에서는 DAPT 적용 이후 Loss값이 증가하거나 혹은 2.1 vs 1.93로 유의미한 차이가 나타나지 않는다고 생각이 듭니다.

  1. BIOMED와 CS에 비해 왜 NEWS와 REVIEWS에서는 Loss값이 증가하거나 유의미한 차이가 없는걸까요?

Appendix E에 나온대로 ROBERTA’s pretraining corpus and NEWS are closer, and BIOMED to CS (relative to other domains). pretraining corpus와 NEWS 데이터가 close하기 때문일까요?

image

  1. Table 1과 Table 3을 보면, Table 1에서는 Loss값이 증가하는 경우도 있었는데 Table3에서는 모든 Domain에서 좋은 성능이 나오거나 비슷한 성능이 나오는 걸 확인할 수 있는데 이건 왜 그런걸까요?
diligejy commented 4 years ago

image

  1. 여기서 빨간색으로 표시한 RCT, AGNEWS , IMDB를 보면 기존 ROBERT와 유의미한 성능 차이가 있다고 보기 힘든거 같습니다. 그럼에도 전반적으로 TAPT가 일반적인 ROBERT보다 성능이 좋으니 더 좋은 모델이다 이렇게 해석해야 할까요?

아니면 DAPT is more resource intensive (see Table 9 in §5.3), but TAPT manages to match its performance in some of the tasks, such as SCIERC. In RCT, HYPERPARTISAN, AGNEWS, HELPFULNESS, and IMDB, the results even exceed those of DAPT, highlighting the efficacy of this cheaper adaptation technique.

이 문장에서 나와있듯이 자원을 덜 쓰는데 효율이 나오는 가성비 있는 모델이니까 써야 하는걸까요? 혹시 ROBERT보다 TAPT가 더 Resource를 덜 쓸까요?(제가 잘 몰라서요)

  1. HYPERPARTISAN TASK에서 TAPT보다 DAPT + TAPT가 성능이 떨어지는 이유는 무엇일까요? 운일까요?
diligejy commented 4 years ago

image

이 표를 통해 논문 저자는 TAPT의 Catastrophic forgetting 위험성에 대해 경고하고 싶어 하는거 같은데,

[질문]

  1. 8개의 TASK중에서 4개는 Transfer-TAPT를 적용하면 많이 떨어지는데, 4개는 별로 차이가 없습니다. 왜 그럴까요? 데이터셋의 특성이 반영된걸까요?

cf. 신기했던 게 각각의 Domain별 Task 1개는 확 떨어지는 반면, 다른 Task는 별 차이가 없기에 신기했습니다. Transfer-TAPT를 쓸 때 50%안에 들기를 바래야 하는건지 궁금했습니다.

emiatej9 commented 4 years ago

@diligejy

[질문]

ⓐ genres and forums는 사전에 정의된 도메인을 의미하는건가요?

도메인을 정의하는 여러가지 관점들이 있는 데, 여기서는 장르나 포럼(또는 토픽) 같이 유사한 단어 분포를 도메인이라고 한 것 같습니다.

ⓑ induce a domain from a given corpus는 예시로 supervised training을 들고 있는데 corpus에서 Topic을 뽑아낸다는 개념으로 이해하면 될까요?

ⓐ 방식 대로 할 수도 있고, 주어진 학습 데이터셋 내에서 도메인을 정의할 수도 있다고 봤습니다. 지도학습에 쓰이는 데이터 내에서 도메인을 정할 수 있다는 건데, 제 생각에 ⓐ 는 DAPT, ⓑ 는 TAPT 에 대한 가설 같습니다.

ⓒ 이러한 내용과 This raises the question of whether pretraining on a corpus more directly tied to the task can further improve performance. 이 문장의 연결관계가 궁금합니다.

ⓑ 라는 가설이 성립한다면, 즉, 지도학습의 데이터 셋도 모델이 학습하기 위해 struggle 해야하는 complexity를 갖는 다면 ⓑ 단위의 데이터셋에 adpative 하게 사전학습을 추가 진행 했을 때, 모델에게 도움이 될 것이라(성능 향상) 생각했던 것 같습니다. 만약 성능향상이 없다면 ⓑ 정도는 RoBERTa 에게 구지 추가 사전학습 시키지 않아도 잘 한다는 이야기고, ⓑ 정도 사이즈의 데이터셋은 하나의 도메인으로 인정하기에는 complexity가 낮다 라고 결론을 냈을 것 같습니다.

emiatej9 commented 4 years ago

@diligejy

  1. BIOMED와 CS에 비해 왜 NEWS와 REVIEWS에서는 Loss값이 증가하거나 유의미한 차이가 없는걸까요?

말씀하신 것 처럼 RoBERTa 의 first phase 사전학습에서 데이터가 NEWS나 REVIEW 와 비슷했기 때문에 그런 것 같다고 얘기합니다. (Figure 2 에서 PT 와 News, Review 가 각각 54.1%, 34.5% 씩 overlap 이 발생했습니다)

hanjiyoon01 commented 4 years ago

제가 기초를 잘 몰라서 허접한 질문이라도 양해 부탁드립니다.

1장 Introduction 부분에 보면

we consider domains defined around genres and forums, but it is also possible to induce a domain from a given corpus used for a task, such as the one used in supervised training of a model.

이런 내용이 나오고 이 내용이

This raises the question of whether pretraining on a corpus more directly tied to the task can further improve performance.

다음과 같은 문장과 연결된다고 합니다.

[질문]

ⓐ genres and forums는 사전에 정의된 도메인을 의미하는건가요?

장르는 텍스트의 장르를 말하는 것 같아요. 신문기사, 소설, 논문 등을 생각하시면 될 것 같고요. 포럼은 좀 재밌는데 어떤 인터넷 사용자 게시판(커뮤니티)에서 긁어왔는지를 말해주는 것 같네요. IMDB는 장르로 볼 때 영화 리뷰면서 IMDB라는 사이트(포럼)에서 발원한 것이 되겠죠. 여기는 안나오지만 보섭님이 다른 예로 들었던 yelp데이터의 경우 장르는 리뷰데이터고 또 출처는 yelp라는 포럼이 되는 것이고요. 또 특이하게 하나의 테스크를 출처로 하는 데이터도 일종의 도메인으로 보신 것 같고요.