letme-hj / dl-papers

Archiving papers I've read! (just to remember the key ideas!)

0 stars 0 forks source link

[4] UL2: Unifying Language Learning Paradigms #4

Open letme-hj opened 1 year ago

letme-hj commented 1 year ago

paper https://arxiv.org/abs/2205.05131 blog https://ai.googleblog.com/2022/10/ul2-20b-open-source-unified-language.html huggingface https://huggingface.co/google/ul2

google research 논문

기존에 많은 pretrained model들이 있지만, 어떤 Pretraning setup이 좋은지, 어떤 아키텍처가 좋은지에 대한 정답은 없다. (NLP 기준) 여기서, dataset과 Setup에 걸쳐 효과적인 pretraining 방식을 제안함.

letme-hj commented 1 year ago

Background

Pre-trained Language Models

나는 잘 몰랐던,, NLP pretrained model의 역사

GPT: 첫번째 pretrained Transformer
- causal language model
BERT: 이어서 등장
- bidirectional modeling
- MLM(masked language modeling) 소개
XLNet
- Permutation Language Modeling (masked token 간의 dependency 고려 - ? 읽어보진 않음)
RoBERTA , SpanBERT, ...

two-stack encoder-decoder artchitecture

T5
- classification, seq2seq 태스크에 두각을 보임
- 한계: open-text generation / prompt-based inference에 약함. (decoder-only model들이 더 나음)

Decoder-only VS Encoder-only decoder only 와 encoder only 중 encoder only를 사용할 이유는 없다.는 내용

Decoder-only VS Encoder-Decoder 이 둘의 경계는 좀더 모호하다..

Pretraining objectives (for LLM)

causal LM
- decoder-only model이 주로 auto-regressive 방식 따라 causal LM 사용.
span corruption
- encoder-decoder model에 효과적임을 보임.
prefixLM