Pre-Training a Language Model Without Human Language

https://arxiv.org/abs/2012.11995

言語モデルの事前学習は、自然言語でない人工データであってもある程度の効果はあるという実験。

すくなくともdownstream task向けにスクラッチから学習させるよりはよい。また、自然言語のようなstructured dataのほうがundstructured dataで事前学習させた場合よりも常によいとは言えないようだ。どちらも意味的なものは含んでいないので、長距離依存の関係をとらえている。とらえるには自然言語である必要はないということか。

小規模リソースのデータ・言語を対象とする場合には、とにかく何らかの形で事前学習させておくのがよさそう。

V100 1個で3日程度でできる実験のようで、その点でも興味深い。

morioka / reading

Pre-Training a Language Model Without Human Language #40