Closed subinium closed 3 years ago
인용수가 15000회가 넘어가는 최근 NLP의 근본이 아닐까 싶다. (대NLP의 시대의 서막)
우선 제목에서 3가지가 핵심이다.
이전에도 Transformer + 대규모 데이터셋은 GPT로 그 가능성을 맛봄
훈련은 unsupervised task 2가지로 진행
BERT의 Input Embedding
성과로 보여주는 구글. GLUE+SQuAD 등 11개 task에서 기존 논문들(ELMo, GPT)를 압도...
pre-trained model을 공개했고, 이를 downstream task에 fine-tuning해서 쓰기만 하면 된다.
BERT와 GPT에서는 Activation Function을 GELU를 사용했다. 왜 이게 잘될까?
BERT를 중심으로 한 논문은 thunlp/PLMpapers에 많다.
대표적으로 읽어야 하는 몇 개 논문. 대략적인 컨셉만 알거나, 모르는 논문이라 다른 이슈에서 또 다뤄볼 예정
자연어에 크게(?) 관심없지만 읽다보면 대규모 모델의 Interpretability + Explainability의 아이디어를 찾을 수 있지 않을까.