BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension

어떤 내용의 논문인가요? 👋

BART는 Sequence-to-Sequence 아키텍처 기반의 encoder(Generalized BERT)와 decoder(GPT)를 사용 하였습니다.
여러 input noise 기법들을 테스트한 결과, Text Infilling이 좋은 성능을 보였습니다.
Text Generation, QA, MT 특히 Summarization task 에서 좋은 결과를 보였습니다.

Abstract (요약) 🕵🏻‍♂️

1. BART ?!

a denoising autoencoder for pretraining sequence-to-sequence models.
pre-trains a model combining Bidirectional and Auto-Regressive Transformers.
trained by 1) corrupting text with an arbitrary noising function, 2) model to reconstruct the original text.
A key advantage of this setup is the noising flexibility(a number of noising approaches).

2. Results

It matches the performance of RoBERTa with comparable training resources on GLUE and SQuAD.
SOTA results on a range of abstractive dialogue, question answering, and summarization tasks.

이 논문을 읽어서 무엇을 배울 수 있는지 간략하게 적어주세요! 🤔

Auto-Encoding(BERT), Auto-Regressive(GPT) 각각의 장점을 모두 살리려고 함
masking된 token의 정보를 구하는 것보다 개수를 예측하는 것이 효과가 좋음 (Text Infilling)

이 논문의 아이디어를 적어주세요.

base 모델 => 6 layers & large 모델 => 12 layers
decoder => encoder의 마지막 hidden layer의 cross-attention을 활용
GPT(decoder) 대비 다른 점 => 1) ReLU 대신 GeLUs activation function 사용, 2) 모델 초기화 파라미터(N(0, 0.02)).
BERT(encoder) 대비 다른 점 => 1) 추가적 FFN 없음, 2) 동일 size의 모델인 경우 BERT 대비 파라미터가 10% 더 많음

BART는 original document 를 일부 훼손한 후, 이를 다시 original document로 재구축하는 과정을 훈련 & decoder 출력과 original document 간 cross-entropy loss를 구함
pre-training (5가지 noising 방법)
1. Token Masking: 임의의 token을 [MASK]로 교체함 => [MASK] token이 무엇인지 예측해야 함
2. Token Deletion: 임의의 token을 삭제함 => 삭제한 token의 위치를 찾아야 함
3. Text Infilling: span length를 뽑아 하나의 [MASK] token으로 대체함 => [MASK]로 대체된 token에 몇개의 token이 존재할지 예측해야 함
4. Sentence Permutation: 문장의 순서를 랜덤으로 섞음
5. Document Rotation: 하나의 token을 뽑은 후, 그 token을 시작점으로 회전함 => 문서의 start point를 찾도록 학습시킴
Text Infilling는 SpanBERT 에 영감을 받았으나, [MASK] token의 정확한 정보(span boundary objective)가 아닌 token의 숫자를 예측한다는 점이 다름
Masked Seq-to-Seq는 MASS 에도 영감을 받음 (전체 token의 50%를 [MASK] 처리함) (MASS is less effective for discriminative tasks, because disjoint sets of tokens are fed into the encoder and decoder.)

fine-tuning (downstream tasks)
1. Sequence Classification Tasks: CLS, end token
2. Token Classification Tasks: SQuAD
3. Sequence Generation Tasks: question answering and summarization
4. Machine Translation: WMT'16 RO-EN

위 Table 1.을 통해 몇 가지 트렌드를 도출
1. pre-training 방법은 여러 task에 유용함
2. token masking 방법은 효과적임
3. Left-to-right 방향의 pre-training 방법은 generation task에 좋음
4. Bidirectional encoder는 SQuAD task에 중요함
5. Permutated LM은 XLNet보다 성능이 안 좋음 (XLNet: Permutation LM + Two Stream Self-Attention)
6. PPL이 높은 task에서는 BART 성능이 좋지 않음 (ex. ELI5) - "BART is less effective when the output is only loosely constrained by the input."

위 Table 2.를 위한 Experimental Setup
1. encoder와 decoder의 hidden size => 12
2. batch size => 8,000
3. train steps => 500,000
4. tokenizing method => BPE
5. Text Infilling + Sentence Shuffling => masking 30% of token, permute all sentences
6. train step의 마지막 10% => dropout off
7. pre-training data => 160Gb (news + books + stories + web text)

summarization task에서 좋은 성능 (article에서 first sentence는 제거함에도 불구하고)
단순히 input 정보를 넘어서, background knowledge를 활용하는 모습을 보여줌
1. "Source Document가 journal Science의 연구임"을 말함 (1st example)
2. "PG&E 가 California에 있다"고 말함 (5th example)

이 논문의 결론을 적어주세요.

BART, a pre-training approach that learns to map corrupted documents to the original.
Future work should explore new methods for corrupting documents for pre-training, perhaps tailoring them to specific end tasks.

Reference

[1] this paper: (arXiv) https://arxiv.org/abs/1910.13461 [2] Introducing BART: https://sshleifer.github.io/blog_v2/jupyter/2020/03/12/bart.html (Research engineer at huggingface) [3] youtube: https://www.youtube.com/watch?v=v7diENO2mEA (KoreaUniv DSBA) [4] transformers: https://huggingface.co/transformers/model_doc/bart.html (BART)

[질문]

논문을 읽고난 뒤의 느낌은 Encoder(BERT)-Decoder(GPT) 구조 + Text infilling (특정 구간의 token을 masking) 방법이 좋다는 것인데, Table 1의 결과를 보고난 느낌은 상대적으로 짧은 문장생성하는 task에서는 좋은 성능을 보이지만, 긴 문장을 생성해야하는 ELI5 에서는 결과가 좋지 못한데 왜그럴까요? Key word(최종 output에 영향을 미치는 단어들, 예를들어 고유명사 등)를 필요로하는 task에서 pretrain을 Text infilling 방법으로 하는것이 도움이 된다라고 해석해도 될까요?

[질문]

Text Infilling 과 Sentence Shuffling Task를 어떻게 동시에 할 수 있을까요?

Input의 형태는 문장들을 섞은 다음, 각 문장을 마스킹하면 될 것 같긴 한데, 마지막에 logit을 뽑아내고 Loss를 계산하는 방식이 궁금하네요 (BERT에서는 Mask 토큰으로 MLM Loss를 계산하고 CLS 토큰으로 NSP Loss를 계산하는 방식으로 두가지 Task를 진행한 것 같던데)

[질문] bart 방식은 source text와 target text가 같기 때문에 model이 cheating 하기 쉬운 구조가 아닌가요? corruption이 이루어진다 하더라도, encoder가 full text를 입력으로 받기 때문에 decoder는 text에 대한 내용을 미리 알고 decoding을 하는 방식인 것 같습니다. 실험 section을 보면 입력의 30%에만 마스킹이 된다고 써있는데요, 이 경우 70%의 단어에 대해서 decoder는 정답 token을 알고 들어가는 세팅이 아닌가요 (permutation이 이루어졌다고 하지만 이 경우에도 최소한 등장했던 단어에 대해서는 인지가 가능)?

[질문]

최종 선택된 Denoising 방법 (Text Inﬁlling + Sentence Shufﬂing)에 대해 의문이 있습니다. => 왜 다른 방법에 비해 효과적인지 잘 모르겠습니다. ++ 성능이 좋은 것인가에 대한 의문도 있습니다.

본문에는

text-inﬁlling perform well on all tasks. (생략) Based on the results in Section § 4, we use a combination of text inﬁlling and sentence permutation.

라고 주장하고 있으나,

Table 1을 보면

(1) Token Masking, Token Deletion, Text Inﬁlling의 성능이 크게 차이 나지 않는 점 (2) BART Base (denoising 하지 않고 그냥 input만 사용) 성능이 누락됨 (3) Document Rotation, Sentence Shufﬂing의 성능이 낮은점

(2)의 성능이 없어서 머라고 말하기는 힘들지만, (1) denoising 의 역할이 크지 않을 수 있다고 생각됩니다. (3)은 오히려 모형에게 부정적으로 작용해 (1)의 성능이 부각된 것 처럼 보인 것?

또한, Sentence Shufﬂing 단독으로는 성능이 좋지 못한대, Text Inﬁlling + Sentence Shufﬂing 성능이 좋게 나온 것도 좀 의아하네요.

실험 결과에는 없지만 Token Deletion + Sentence Shufﬂing 과는 뭐가 다른지.. Denoising 효과에 대한 실험 근거가 조금 부족한 것이 아닌가 생각이 듭니다.

[질문]

전반적으로 BART의 성능이 기존 BERT 스타일의 모델들에 비해 NLI나 Acceptability 측면에서는 경쟁력 있지 못한 것 같습니다. 그 이유는 아무래도 그 training objective가 BERT보다는 좀 더, 문서를 복원하기 이전에 많은 훼손을 가했기에 그것을 복원하는 데에 너무 많은 bias가 산입되어 오히려 주어진 상황을 보고 판단해야 하는 logic task들에는 좀 덜 맞는 게 아닌가 하는 생각이 들었습니다.

modulabs / beyondBERT