Scaling laws describe the relationship between the size of language modelsand their capabilities. Unlike prior studies that evaluate a model's capabilityvia loss or benchmarks, we estimate the number of knowledge bits a modelstores. We focus on factual knowledge represented as tuples, such as (USA,capital, Washington D.C.) from a Wikipedia page. Through multiple controlleddatasets, we establish that language models can and only can store 2 bits ofknowledge per parameter, even when quantized to int8, and such knowledge can beflexibly extracted for downstream applications. Consequently, a 7B model canstore 14B bits of knowledge, surpassing the English Wikipedia and textbookscombined based on our estimation. More broadly, we present 12 results on how (1) training duration, (2) modelarchitecture, (3) quantization, (4) sparsity constraints such as MoE, and (5)data signal-to-noise ratio affect a model's knowledge storage capacity. Notableinsights include: The GPT-2 architecture, with rotary embedding, matches or even surpassesLLaMA/Mistral architectures in knowledge storage, particularly over shortertraining durations. This arises because LLaMA/Mistral uses GatedMLP, which isless stable and harder to train. Prepending training data with domain names (e.g., wikipedia.org)significantly increases a model's knowledge capacity. Language models canautonomously identify and prioritize domains rich in knowledge, optimizingtheir storage capacity.
Translation (by gpt-3.5-turbo)
スケーリング則は、言語モデルのサイズとその能力との関係を記述します。
従来の研究とは異なり、モデルの能力を損失やベンチマークで評価するのではなく、モデルが格納する知識ビット数を推定します。
私たちは、(USA, capital, Washington D.C.)のようなタプルで表される事実知識に焦点を当てており、これはWikipediaページから取得されます。
複数の制御されたデータセットを通じて、言語モデルは1つのパラメータあたり2ビットの知識を格納できること、int8に量子化されていてもそのような知識を柔軟に抽出できることを確立しています。
その結果、7Bモデルは14Bビットの知識を格納でき、私たちの推定に基づいて英語のWikipediaと教科書を合わせたものを上回ります。
さらに、(1)トレーニング期間、(2)モデルアーキテクチャ、(3)量子化、(4)MoEなどの疎な制約、および(5)データの信号対雑音比がモデルの知識格納容量にどのように影響するかに関する12の結果を提示しています。
注目すべき洞察には以下が含まれます:
URL
Affiliations
Abstract
Translation (by gpt-3.5-turbo)
Summary (by gpt-3.5-turbo)