Open morioka opened 3 years ago
https://arxiv.org/abs/2012.11995
言語モデルの事前学習は、自然言語でない人工データであってもある程度の効果はあるという実験。
すくなくともdownstream task向けにスクラッチから学習させるよりはよい。また、自然言語のようなstructured dataのほうがundstructured dataで事前学習させた場合よりも常によいとは言えないようだ。 どちらも意味的なものは含んでいないので、長距離依存の関係をとらえている。とらえるには自然言語である必要はないということか。
小規模リソースのデータ・言語を対象とする場合には、とにかく何らかの形で事前学習させておくのがよさそう。
V100 1個で3日程度でできる実験のようで、その点でも興味深い。
https://arxiv.org/abs/2012.11995
言語モデルの事前学習は、自然言語でない人工データであってもある程度の効果はあるという実験。
すくなくともdownstream task向けにスクラッチから学習させるよりはよい。また、自然言語のようなstructured dataのほうがundstructured dataで事前学習させた場合よりも常によいとは言えないようだ。 どちらも意味的なものは含んでいないので、長距離依存の関係をとらえている。とらえるには自然言語である必要はないということか。
小規模リソースのデータ・言語を対象とする場合には、とにかく何らかの形で事前学習させておくのがよさそう。
V100 1個で3日程度でできる実験のようで、その点でも興味深い。