sallyy1 / NLU-NLP

📖 Natural Language, Korean, Deep Learning
0 stars 0 forks source link

[ELECTRA: Pre-Training Text Encoders as Discriminatiors rather than Generators (2020)] #19

Open sallyy1 opened 3 years ago

sallyy1 commented 3 years ago

요약 및 Contribution

1. Generators 보다는 Discriminatiors 로써의 훈련
2. GAN이 떠오르지만 적대적이지 않은 방법
* ELECTRA : Efficiently Learning an Encoder that Classifies Token Replacements Accurately.
모델 성능

Motivation

기존 MLM 모델의 단점: Large amounts of compute
스크린샷 2021-03-16 오후 3 21 53

Previous & Approach

1. Replaced token detection
2. the difficulty of applyting GANs to text

Model

Method

크게 generator G 와 discriminator D 2개의 신경망 네트워크를 훈련하는 접근법.

(Each one primarily consists of an encoder (e.g., a Transformer network) that maps a sequence on input tokens x = [x1, ..., xn] into a sequence of contextualized vector representations h(x) = [h1, ..., hn].)

스크린샷 2021-03-16 오후 4 12 39

여기서 Generator는 BERT 와 같은 기존 사전학습된 MLM 모델을 사용. 마스킹할 위치 _t_는 uniform 분포를 통한 정수 1과 n 사이에서 랜덤하게 선택됨

Loss Function도 2가지
스크린샷 2021-03-16 오후 4 16 08

** GAN과 훈련 목적은 유사하지만 차이점 있음.

Combined Loss

실험 성과

ELECTRA-Small 모델의 성과
ELECTRA-Large 모델의 성과

결론

용어

sallyy1 commented 3 years ago