morioka / reading

0 stars 0 forks source link

Pre-Training a Language Model Without Human Language #40

Open morioka opened 3 years ago

morioka commented 3 years ago

https://arxiv.org/abs/2012.11995

image

言語モデルの事前学習は、自然言語でない人工データであってもある程度の効果はあるという実験。

すくなくともdownstream task向けにスクラッチから学習させるよりはよい。また、自然言語のようなstructured dataのほうがundstructured dataで事前学習させた場合よりも常によいとは言えないようだ。 どちらも意味的なものは含んでいないので、長距離依存の関係をとらえている。とらえるには自然言語である必要はないということか。

小規模リソースのデータ・言語を対象とする場合には、とにかく何らかの形で事前学習させておくのがよさそう。

V100 1個で3日程度でできる実験のようで、その点でも興味深い。