[7] J. Kaplan, S. McCandlish, T. Henighan, T. B. Brown, B. Chess, R. Child, S. Gray, A. Radford, J. Wu, and D. Amodei, Scaling laws for neural language models, 2020. arXiv: 2001.08361 [cs.LG].
[17] Y. Levine, B. Lenz, O. Dagan, D. Padnos, O. Sharir, S. Shalev-Shwartz, A. Shashua, and Y. Shoham, “SenseBERT: Driving some sense into BERT,” in Proceedings of the 2010 Conference of the Association for Computational Linguistics (ACL), 2020. [Online]. Available: https://arxiv.org/pdf/1908.05646.pdf.
論文へのリンク
[arXiv:2004.08900] The Cost of Training NLP Models: A Concise Overview
著者・所属機関
Or Sharir, Barak Peleg, Yoav Shoham
投稿日時(YYYY-MM-DD)
2020-04-19
1. どんなもの?
自然言語処理で使用されているモデルの学習コストとその原因を調査した。
2. 調査内容
Googleが報告しているように学習を並列化させたり、ハードウェアの最適化(GPUからTPU)を行うことでResNet50の学習コストを38%低減することができている。
しかし最近提案されているNLPモデルは学習コストがどんどん高くなっている。実際にパラメータ数の異なるBERTの1回の学習コストとパラメータチューニングを想定した学習コストをは以下になる。
上記のように学習コストは非常に高く、例えば110億のパラメータを有するT5では一回のが学習に130万ドル程度がかかることがGoogleにより報告されている。
3. 学習コストの原因
NLPでは特定の環境下で特定のPerformanceを発揮するためにどの程度のFLOPsが要求されるのか、その公式は未だに明確になっていない。
そこで本研究では近年急激に増大している以下の変数に焦点を当てている。
これらの変数の増大がどのようにFLOPsに影響を与えるかは不明である。またFLOPsは学習方法にも依存しており、BERTスタイルのモデルの学習に必要とされるFLOPs数は、GPT-2と比較して少ない。
ほかにもELECTRAのようにGeneratorを使用した敵対的学習を行う際にはまた別のモデルを学習させるコストも考える必要がある。
しかし明らかなこととして、こういった増大している変数はFLOPsに相関している。
また適したパラメータ探索のためにモデルを複数回計算する必要がある時事実が見落とされている。そのため大きなサイズのモデルでのパラメータチューニングを行う前に、小さなモデルでチューニングを実施することが重要となる。
4. これから
NLPの世界でモデルサイズを大きくする方向に進んでいる理由はそれが他の代替案よりも高い性能を発揮しているからである。また経済的な価値も高いため、コストをかける価値があると考えられている。
今後Performanceを向上させるために重要なことは以下になる。
5. 次に読むべき論文はあるか?