Data Augmentation using Pre-trained Transformer Models

seopbo commented 4 years ago

어떤 내용의 논문인가요? 👋

pretrained transfomer based models을 사용한 DA(data augmentation)에 대한 unified approach를 제안함

Abstract (요약) 🕵🏻‍♂️

Condiational DA을 위해 pretrained transformer base models(auto-regressive models:GPT2, auto-encoder models:BERT, seq2seq models:BART) 를 연구함
text sequences에 class labels을 prepend하는 것은 DA를 위해 pretrained models을 condition하는 단순하고 효과적인 방법임
3가지 분류 benchmarks에 대해서 pretrained seq2seq model이 다른 모델들보다 성능이 좋음
data diversity 측면에서 pretrained transformer base models이 어떻게 다른지 실험
pretrained transformer base models 중 어떤 모델이 가장 잘 class-label을 보존하는지 실험

이 논문을 읽어서 무엇을 배울 수 있는지 간략하게 적어주세요! 🤔

이 논문의 기여
- seq2seq pretraind model 기반 DA의 implemation (code 주소 공개, 그러나 법률팀 승인 대기중)
- 다양한 conditional pretrained model 기반의 DA 방법들의 실험적 비교
- 다양한 pretrained models을 이용하기 위한 practical guidelines을 포함한 unified DA 접근법 제시

이 논문의 아이디어를 적어주세요. (요약하여 적거나, 자세히 적어도 상관없습니다.)

1. 배경

DA는 학습 데이터를 증가시키는 테크닉(overfitting 감소, robustness를 강화)
기존 NLP DA 연구
knowledge bases(WordNet) 기반 word replacement(Wei and Zou, 2019), LM(Kobayshi, 2018)
한계: class labels을 보존하는것이 힘듦
- 예) 감성 분류 task에서 input 문장의 non-conditional DA
- "a small impact with a big movie"(negative) -> "a small movie with a big impact"(positive)
- 원래 문장의 label을 가진 argumented data를 학습에 사용하면 모델 성능에 부정적 영향 끼침
한계 극복 연구
- Wu et al(2019): conditional BERT(CBERT)를 제안
  - CBERT: masked tokens을 예측하기 위해 class labels을 고려하는 방식으로 BERT MLM task를 확장함
  - 이방법은 변경한 BERT 모델의 segment embedding에 의존하므로 segment beddings이 없는 다른 pretraind LMs들에 일반화 될수 없음
- Anaby-Tavor et al(2019): GPT2를 사용
  - fine-tuned model의 입력으로 class를 제공함으로써 class가 주어졌을 때 examples을 생성하는 모델
  - argumentation을 위해 10배수의 examples을 생성하고, model confidence socre를 기반으로 candidates을 선택함
  - data 선택은 GP2만 가능하므로, 다른 모델과 공정한 비교가 아님
- 이러한 불일치성으로, pretrained models을 이용해 생성된 데이터들이 서로 얼마나 다른지, downstream model 성능에 어떤 영향을 주는지 이해하는 것은 쉽지 않음

본 논문은

pretrained transfomer based models을 사용한 DA에 대한 unified approach를 제안함
3가지 다른 종류의 pretrained models을 실험함
- auto-regressive (AR) LM:GPT2, autoencoder (AE) LM: BERT, pre-trained seq2seq model: BART
3가지 NLP tasks을 위해 데이터를 생성함
- sentiment classification, intent classification, question classification
low-resource data scenario(labeled data의 1%만 사용)로 시뮬레이션함

2.방법

1) pretrained models 기반 DA

text 분류 정확도를 향상시키기 위해, DA에 pretrained transformer base models(AE models, AR models, seq2seq models)들을 사용

2) pretrained "LM" 기반 Conditional DA

conditional DA의 경우 model G는 data genertation을 위한 fine-tuning 동안에 label 정보를 통합
xi에 label인 yi를 prepend함으로써 labels에 대해 model을 condition할 수 있음
pretrain model을 class label에 condition하는 2가지 일반적인 방법을 비교
- prepend
  - 학습 데이터에 있는 각 문장 xi에 대해 label yi를 prepend함 + model vocabulary에 yi는 추가하지 않음
  - model은 yi을 mutiple subword units으로 분리함
- expend
  - 학습 데이터에 있는 각 문장 xi에 대해 label yi를 prepend함 + model vocabulary에 yi를 추가함
  - model은 yi을 a single token으로 간주함
AE LMs 을 이용한 fine-tuning과 data generation
- AE model: BERT
- fine-tuning 동안 default making parameters, MLM objective사용
- BERTperpend, BERTexpand models 둘다 같은 objective을 이용해 fine-tune함
AR LMs 을 이용한 fine-tuning과 data generation
- AR model: GPT2
- fine-tuning
  - dtrain에 있는 모든 문장들을 concatenate함으로써 학습 데이터셋을 만듦
    - y1SEPx1EOSy2...ynSEPxnEOS
    - SEP: label와 sentence사이를 구분하는 separation token
- generating data
  - GPT2(to refer)
    - yiSEP을 G에 prompt로 제공하고, 모델이 EOS token을 생성할 때까지 generating을 계속함
  - GPT2context
    - 위에 GPT2의 generation은 label 정보를 보존하는 것이 어려움
    - generated data label quaility를 개선하기 위해 G에 additional context를 제공함
    - yiSEPw1,...,wk을 prompt로 제공함 (xi 문장의 첫 k개 words: w1,...,wk)

3) pretrained "seq2seq model" 기반 Conditional DA

seq2seq model: BART
seq2seq model을 이용한 fine-tuning과 data generation
- class labels을 주어진 class의 모든 examples에 prepend함으로써 BART을 condition함
- word level masking을 2가지 방법으로 적용
  - BARTword
    - 한 단어 wi를 mask token 로 대체함
  - BARTspan
    - 한 continuous chunk(k개 단어: wi,wi+1,..,wi+k)을 하나의 single mask token 로 대체함
- masking은 단어들의 20%에 적용
- BART를 denoising objective를 가지고 fine-tune함

3. 구현

1) BERT based model 구현

AE 실험에서 bert-base-uncased 모델 사용 (huggingface's transformer package)

2) GPT2 model 구현

GPT2-Small모델 사용 (huggingface's transformer package)

3) BART model 구현

bart_large model weights이용 (fairseq toolkit 구현 코드 이용)

4. 실험

Baseline Approaches for DA

baseline: EDA, CBERT
EDA(Wei and Zou, 2019)
- word-replacement based augmentation
- low-data regime에서 text classification 성능을 향상
CBERT(Wu et al, 2019)
- LM based augmentation
- 다른 word-replacement based method 보다 더 좋은 성능을 낸 최신 모델

Dataset

SST-2, SNIPS, TREC

Low-resourced data scenraio

low-data regime setting에 대한 이전 연구(Hu et al, 2019) following
training/validation dataset의 1%를 랜덤 선택 (사전 실험 반영)
1% 데이터만 선택하면 validation set이 매우 작아서, 첫번째 epoch에서 모델 정확도가 100%가 될 수 있음
이를 피하고, 안정적인 development set을 가지기 위해, class마다 5 validataion examples 선택 [ Table 2 ]

DA 평가

extrinsic 평가
- generated examples을 각 task의 low-data reigme training data에 추가함
- 3개 데이터 셋에 대해 평가함
- 모든 실험은 15번 반복함
intrinsic 평가
- semantic fidelity 평가
  - generated text가 input sentence의 의미와 class를 얼마나 잘 유지하는가
  - 이를 측정하기 위해, pretrained English BERT-base uncased model를 fine-tuning하여 각 task에 classifier를 훈련 시킴
  - 성능을 높이기 위해, existing labeled data의 training, test partition을 100%로 결합해서 training에 사용
  - dev partition에 대한 성능을 기반으로 model을 선택
  - text diversity 평가
  - 모델들의 다양한 output을 generate하는 능력을 비교하기 위해 type token ratio을 측정
  - type token ratio: unique n-grams 수 / generated text에서 모든 n-grams 수

5. 결과

DA extrinsic 평가

BERTprepend는 BERTexpand보다 2개 datasets에서 더 잘 함
- labels은 class의 의미에 밀접한 관련이 있으므로, tokens들을 prepend하는 것은 모델이 conditional word replacement를 위해 label 정보를 잘 활용할 수 있음
- BERT는 큰 데이터에 pretrained되어 있지만, 제한된 데이터에 fine-tuning을 하므로, expand모델의 경우 새롭고, 의미있는 label 표현들을 배우는 것이 어려울 것
  - intrinsic 평가를 보면, expand 모델들에서 generated text가 class label를 유지할 가능성이 적어, prepand보다 정확도가 낮음
seq2seq pretraining based BART가 다른 DA 접근들보다 모든 datasets에서 잘함
GPT2context 처럼 GPT에 context를 추가하면 성능이 향상됨

DA intrinsic 평가 (1) Generated Data Fidelity

각 test set에 classifier를 훈련 시키고, 훈련된 classifier를 이용해 generated text의 label을 예측함
BERTprepend가 generated data의 semantic fidelity 측면에서 제일 잘함
AR models(GPT2)는 generated text에서 class label을 유지하기 쉽지 않음
BERT-based models의 fidelity가 GPT2-based model보다 높지만, BERTprepend, CBERT에서 가장 높은 semantic fidelity를 얻음
이러한 모델들의 generated output이 훈련 데이터에 다양성을 덜 추가하여 intrinsic 평가에서는 좋은 성능을 가져 오지만 반드시 extrinsic 평가에서는 그렇지는 않음

DA intrinsic 평가 (2) Generated Data Diversity

BART-based methods은 특히 bi- 및 trigrams의 경우 가장 높은 type token ratio을 산출
Seq2Seq model BART가 가장 다양한 데이터를 생성함

이 논문의 결론을 적어주세요.

DA에 다양한 pretrained models을 사용하기 위한 가이드라인
- AE models
  - label을 raw sequence에 prepend하는 것은 모델 아키텍처를 수정하는 것보다 성능 경쟁력이 있음
  - 더 복잡한 AE 모델(RoBERTaprepend)는 BERTprepend보다 우수 (TREC 평균 acc: 33.6 vs 30.28)
- AR models
  - AR 기반 모델(GPT2)은 매우 일관된 text를 생성, label을 잘 보존하지는 않음
  - GPT2context에서와 같이 label 함께 몇 가지 시작 단어를 제공하는 것이 의미있는 labeled data를 생성하는 데 중요
- Seq2Seq models
  - Seq2Seq 모델은 다양한 denoising autoencoder tasks(subword/word/span masking, random word insertion/deletion, text rotation) 실험 가능
  - word/span masking이 다른 denoising objectives 보다 성능이 좋아, DA에 선호됨
- AE models이 유사한 길이의 sequences들 생성하도록 제한되고, labels을 잘 보존하는 반면, AR models은 제한되지 않은 생성에는 우수하지만, label 정보를 잘 보유하지 못함. Seq2Seq models은 diversity과 semantic fidelity에 균형을 잘 유지하여 AE와 AR에 있음. span masking의 길이를 변화시켜 generated data의 diversity을 제어할 수 있음.

참고 문헌

[1] Wu, Xing, et al. "Conditional BERT contextual augmentation." International Conference on Computational Science. Springer, Cham, 2019. [2] Anaby-Tavor, Ateret, et al. "Do Not Have Enough Data? Deep Learning to the Rescue!." AAAI. 2020. [3] "A Visual Survey of Data Augmentation in NLP"

soeque1 commented 4 years ago

[질문]

해당 연구에서 BERT, GPT-2, BART 의 성능 차이가

(1) 아키텍쳐(Enc, Dec, Enc-Dec)에 의한 차이인지 (2) 각 모형마다 pre-train 시 입력 전처리(de-noising) 방식 차이인지 (fine-tune 시에도 상이) (3) 둘 다 인지 잘 모르겠습니다.

또한 각 모형들을

GPT-2는 Small BART는 Large Bert는 Base

를 사용한 것 같은데.. 이게 어떤 의미일까요? 파라미터 갯수를 맞춘걸까요?;;

warnikchow commented 4 years ago

[질문]

BART 기반 모델들이 diversity 측면에서는 좋은 결과를 가져오지만 data fidelity를 봤을 때는 그렇지 못한 것 같습니다. 이 점에서 diverse하게 생성된 데이터들이 consistent함을 보장하는 데이터는 아니었던 것 같은데 이렇게 이해하면 될까요? 생성된 데이터들이 diverse하면서도 훈련 측면에서도 consistent한 것을 볼 수 있는 지표가 있을지도 궁금합니다.

modulabs / beyondBERT