Open JudePark96 opened 3 years ago
GPT-3 와 같이 pre-trained language model 의 성능은 점점 더 좋아지고 있지만 크기 또한 exponential 하게 늘어나기 때문에 real world 에서 사용하기 힘들다는 단점이 있다. 본 논문에서는 textual inputs 을 task description 을 포함한 cloze question 으로 변환하고 gradient-based optimization 을 통한 few-shot learning 을 바탕으로 더 작은 파라미터 (BERT, RoBERTa, etc) 로도 GPT-3 와 유사한 성능의 신경망을 구축할 수 있음을 보여준다.
Contents
1. 초록은 뭐라고 말하고 있어 ?
2. 주요 기여점은 뭐야 ?
3. 이전의 접근과는 뭐가 다른 것 같아 ?
4. 어떤 걸 제안할 수 있을까 ?
5. 다음 논문은 무엇을 읽어야할까 ?