URL

http://arxiv.org/abs/2305.10429
Affiliations
- Sang Michael Xie, N/A
- Hieu Pham, N/A
- Xuanyi Dong, N/A
- Nan Du, N/A
- Hanxiao Liu, N/A
- Yifeng Lu, N/A
- Percy Liang, N/A
- Quoc V. Le, N/A
- Tengyu Ma, N/A
- Adams Wei Yu, N/A
  Abstract
- The mixture proportions of pretraining data domains (e.g., Wikipedia, books,web text) greatly affect language model (LM) performance. In this paper, wepropose Domain Reweighting with Minimax Optimization (DoReMi), which firsttrains a small proxy model using group distributionally robust optimization(Group DRO) over domains to produce domain weights (mixture proportions)without knowledge of downstream tasks. We then resample a dataset with thesedomain weights and train a larger, full-sized model. In our experiments, we useDoReMi on a 280M-parameter proxy model to find domain weights for training an8B-parameter model (30x larger) more efficiently. On The Pile, DoReMi improvesperplexity across all domains, even when it downweights a domain. DoReMiimproves average few-shot downstream accuracy by 6.5% over a baseline modeltrained using The Pile's default domain weights and reaches the baselineaccuracy with 2.6x fewer training steps. On the GLaM dataset, DoReMi, which hasno knowledge of downstream tasks, even matches the performance of using domainweights tuned on downstream tasks.
  Translation (by gpt-3.5-turbo)
事前学習データのドメインの混合比（例：Wikipedia、書籍、Webテキストなど）は、言語モデル（LM）の性能に大きな影響を与えます。本論文では、ドメイン再重み付けと最小最大最適化（DoReMi）を提案し、まずグループ分布ロバスト最適化（Group DRO）を使用してドメインの重み（混合比）を下流タスクの知識なしに生成するための小さなプロキシモデルをトレーニングします。次に、これらのドメインの重みでデータセットを再サンプリングし、より大きなフルサイズのモデルをトレーニングします。実験では、DoReMiを280Mパラメータのプロキシモデルに使用して、8Bパラメータのモデル（30倍大きい）のトレーニングに効率的にドメインの重みを見つけます。The Pileでは、DoReMiはドメインを下げた場合でも、すべてのドメインでperplexityを改善します。DoReMiは、The Pileのデフォルトのドメインの重みを使用してトレーニングされたベースラインモデルに比べて、平均的なfew-shot下流精度を6.5％改善し、トレーニングステップを2.6倍少なくしてベースライン精度に到達します。GLaMデータセットでは、DoReMiは下流タスクの知識がなくても、ドメインの重みを調整した場合と同等のパフォーマンスを発揮します。
Summary (by gpt-3.5-turbo)
本論文では、言語モデルの性能に影響を与える事前学習データのドメインの混合比について、DoReMiという手法を提案する。DoReMiは、小さなプロキシモデルを使用してドメインの重みを生成し、再サンプリングして大きなモデルをトレーニングすることで、効率的にドメインの重みを見つけることができる。実験では、DoReMiはThe PileやGLaMデータセットで高い精度を発揮し、few-shot下流精度を6.5％改善することができる。

AkihikoWatanabe / paper_notes

DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining, Sang Michael Xie+, N/A, arXiv'23 #698

URL

Affiliations

Abstract

Translation (by gpt-3.5-turbo)

Summary (by gpt-3.5-turbo)