Universal Language Model Fine-tuning for Text Classification

short summary

言語モデルに対してInductive transfer learningを効果的に行う手法Universal Language Model Fine-tuning(ULMFiT)の提案。6つのテキスト分類タスクにおいて、SOTAでしかも必要サンプル数が少なく効率的であることを示した。

computer visionにおいては、Imagenet, MS-COCOなどで事前学習したモデルを用いて、object detection, segmentation, classificationなどにinductive transfer learningを行うことで、大きな成果を残してきたが、NLPではこのような事前学習がうまく行われておらず、word2vecやELMoなどの特徴量としてうまく取り出す手法がインパクトを残すにとどまっている。CVにおいてのように、モデルをいい感じで初期化することで精度・効率を大きくあげることが理想。 → ULMFiT

UNIFiTの構成

generalな言語モデルの学習
target taskの領域におけるLMのfine-tuning
- Discriminative fine-tuning
- Slanted triangular learning rates
targetの分類タスクへの転移学習
- Concat pooling
- Gradual unfreezing

generalな言語モデルの学習

wikiなどでLMを学習させる。モデルには、AWD-LSTM (SOTA?)を用いる。

target taskの領域におけるLMのfine-tuning

Discriminative fine-tuning SGDを行うときに、全レイヤー学習率を同じにするのではなく、最終層から第１層に向かってだんだん小さく設定する。（最初の方の層はより一般的な性質を捉えているからあまり変えなくていい）
Slanted triangular learning rates

学習室を最初線形で短いスパンであげてその後徐々に小さくしていくことで、素早くパラメータ空間内の適した場所に集中し、最適化していく。

targetの分類タスクへの転移学習

Gradual unfreezing 全層一気にfine-tuningするのではなく、1epochごとに最終層の方からunfreezeしていく。

author

Jeremy Howard∗ fast.ai University of San Francisco j@fast.ai Sebastian Ruder∗ Insight Centre, NUI Galway Aylien Ltd., Dublin sebastian@ruder.io

URL

https://arxiv.org/abs/1801.06146

year

ACL 2018

kacky24 / papers