Open jason9693 opened 5 years ago
Accepted Conference Name & Year : 2018
1st Author Name & Institute : J Devlin, Google Brain
Bidirectional Transformer
Transfer Learning
Masked LM (MLM)
여러개 국가 언어의 nlp Task에서 SOTA 갱신
GLUE bench mark to 80.4% (7.6%p 상승)
MultiNLI Accuracy : 86.7% ( 5.6%p 상승)
SQuADv1.1 : 93.2 ( 1.5%p 상승)
gpt : 단방향(좌->우)
ELMo : (좌->우) (우->좌) 후 concat
BERT : 양방향
토큰 임베딩 : wordpiece embedding (아래 추가자료 참조)
세그먼트 임베딩 : 문장기준 임베딩 ( 단일 문장은 동일값)
포지션 임베딩 : 인덱스 기준 임베딩. ( 최대 문장길이 선택 ie. 512)
Pre training: 1) MLM
2) Next Sentence Prediction
@SSUHan 정확히는 Word를 임베딩 한것이 아니라, 'Word Piece Model'로 토크나이징한 'Word Piece'를 임베딩 한것입니다. Sentence Embedding에 대한 Baseline은 아직까지 못찾았습니다.
BERT: Bidirectional Encoder Representation from Transformers.
Accepted Conference Name & Year : 2018
1st Author Name & Institute : J Devlin, Google Brain
Keywords
Bidirectional Transformer
Transfer Learning
Masked LM (MLM)
Contribution
여러개 국가 언어의 nlp Task에서 SOTA 갱신
GLUE bench mark to 80.4% (7.6%p 상승)
MultiNLI Accuracy : 86.7% ( 5.6%p 상승)
SQuADv1.1 : 93.2 ( 1.5%p 상승)
Proposed Architecture
gpt : 단방향(좌->우)
ELMo : (좌->우) (우->좌) 후 concat
BERT : 양방향
토큰 임베딩 : wordpiece embedding (아래 추가자료 참조)
세그먼트 임베딩 : 문장기준 임베딩 ( 단일 문장은 동일값)
포지션 임베딩 : 인덱스 기준 임베딩. ( 최대 문장길이 선택 ie. 512)
Pre training: 1) MLM
2) Next Sentence Prediction
Dataset
Valuable Relative Works