BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

short summary

transformerを用いたlanguage representation modelであるBERT (Bidirectional Encoder Representations from Transformers)の提案。タスクに特化したモデルではないのにも関わらず、大量のコーパスで教師なし学習でpre-trainした後、それぞれのタスクに対して低コストでfine tuningすることで、文レベル、トークンレベル両方の多くのタスクでSOTA達成。

language representationのpre-trainは以下の2つに大別

Feature-based approach skipgram, skipthought, ELMoなどの単語、文の表現を事前学習により獲得するアプローチ
Fine-tuning approach まずモデルを言語モデルとして学習させたのち、そのモデルを教師ありのdownstreaming taskに対してfine tuningする。OpenAI GPTや今回のBERTなど。

model概要

transformerを使用。 BERT(base)

number of layers: 12, hidden size: 768, number of self-attention heads: 12, size of feed forward: 3072, total parameters: 110M

BERT(large)

number of layers: 24, hidden size: 1024, number of self-attention heads: 16, size of feed forward: 4096, total parameters: 340M

model input

BERTのinputは、１文を入力する or 対の２文（QAなど）を１文にくっつけて入力とする。ある箇所のトークンに対応する入力の表現は、トークンとpositional embeddingと、segment embeddingの和から成る（上図）。

segment embedding: 対の２文を入力とする場合に、１文目(A)にはsentence Aのembeddingを加え、２文目(B)にはsentence Bのembeddingを加えることで、２文を区別する。１文しか入力しない場合はsentence A embeddingだけを使う。

pre-training tasks（この論文の肝）

以下の2つの新しい教師なしタスクを解かせる。

Masked Language Model 前提：deep bidirectional modelは、left-to-rightなモデルや、left-to-right・right-to-leftなモデルの出力を結合したものより強力。 deep bidirectional representationを学習するために、何割か(15%)の入力トークンにマスクをかけ、そのマスクがかかったトークンを予測する問題を解く。
Next Sentence Prediction QAやNatural Language Inference(NLI)においては、２文間の関係性を理解することが重要であるが、language modelingからはこれは直接的に学習できない。そこで、２文のペアを作り、２文目が１文目の次の文かそうでないかの分類問題を解く。

学習

BookCorpus + Wikiデータで学習。Next sentence predictionがあるので文章レベルのデータが必要。 fine-tuningの際には出力層だけを加え、3, 4epochほどタスク用のデータで教師あり学習を行う。

実験結果

11のNLPタスクでSOTA。

fine-tuningするのではなく、ELMo的な使い方でも、CoNLL-2013 NER(name entity recognition)においてfine-tuningしたものとf1-scoreが0.3しか変わらず、かなり高精度。

author

Jacob Devlin Ming-Wei Chang Kenton Lee Kristina Toutanova Google AI Language {jacobdevlin,mingweichang,kentonl,kristout}@google.com

URL

https://arxiv.org/pdf/1810.04805.pdf

year

2018

kacky24 / papers