kacky24 / papers

my publications and short summaries of papers I have read
3 stars 1 forks source link

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding #36

Closed kacky24 closed 5 years ago

kacky24 commented 6 years ago

short summary

transformerを用いたlanguage representation modelであるBERT (Bidirectional Encoder Representations from Transformers)の提案。 タスクに特化したモデルではないのにも関わらず、大量のコーパスで教師なし学習でpre-trainした後、それぞれのタスクに対して低コストでfine tuningすることで、文レベル、トークンレベル両方の多くのタスクでSOTA達成。

language representationのpre-trainは以下の2つに大別

model概要

transformerを使用。 BERT(base)

BERT(large)

model input

2018-10-17 23 19 44

BERTのinputは、1文を入力する or 対の2文(QAなど)を1文にくっつけて入力とする。 ある箇所のトークンに対応する入力の表現は、トークンとpositional embeddingと、segment embeddingの和から成る(上図)。

pre-training tasks(この論文の肝)

以下の2つの新しい教師なしタスクを解かせる。

学習

BookCorpus + Wikiデータで学習。Next sentence predictionがあるので文章レベルのデータが必要。 fine-tuningの際には出力層だけを加え、3, 4epochほどタスク用のデータで教師あり学習を行う。

実験結果

11のNLPタスクでSOTA。

fine-tuningするのではなく、ELMo的な使い方でも、CoNLL-2013 NER(name entity recognition)においてfine-tuningしたものとf1-scoreが0.3しか変わらず、かなり高精度。

2018-10-18 0 04 42

author

Jacob Devlin Ming-Wei Chang Kenton Lee Kristina Toutanova Google AI Language {jacobdevlin,mingweichang,kentonl,kristout}@google.com

URL

https://arxiv.org/pdf/1810.04805.pdf

year

2018