e4exp / paper_manager_abstract

0 stars 0 forks source link

Revisiting Simple Neural Probabilistic Language Models #351

Open e4exp opened 3 years ago

e4exp commented 3 years ago

近年の言語モデリングの進歩は,ニューラルアーキテクチャの進歩だけでなく,ハードウェアや最適化の改善によってもたらされています。 本論文では、~\{Bengio2003ANP}のニューラル確率的言語モデル(NPLM)を再検討しました。 このモデルは、固定されたウィンドウ内で単語の埋め込みを単純に連結し、その結果をフィードフォワードネットワークに通して次の単語を予測します。 このモデルは、最新のハードウェアにスケールアップすると、多くの制限があるにもかかわらず、単語レベルの言語モデルベンチマークで予想をはるかに上回る性能を発揮します。 分析の結果、NPLMは短い入力文脈ではベースラインのTransformerよりも低いperplexityを達成しますが、長期的な依存関係の処理には苦労します。 この結果にヒントを得て、我々はTransformerの最初の自己注意層をNPLMの局所連結層に置き換えることでTransformerを修正し、3つの単語レベルの言語モデルデータセットにおいて、小さいながらも一貫してパープレキシティを減少させることができた。

e4exp commented 3 years ago

image image image image image image

e4exp commented 3 years ago

5 結論

ニューラルアーキテクチャの設計、ハードウェア、および最適化における汎用的な進歩が、古典的な言語モデルであるNPLMを大幅に改善することを発見しました。 この改良されたNPLMを分析した結果、最新のTransformer LMとハイブリッド化することで、3つの単語レベルのLMデータセットにおいて、perplexityの減少を得ることができた。

倫理声明 言語モデルの悪用 私たちの研究では、公開されているベンチマークデータセットを用いて大規模な言語モデルを学習します。 これらのデータは、事前に学習された多くの言語モデルが直面する問題を共有しています。 例えば、悪意を持って使用され、不実な、偏った、または攻撃的な出力を生成することがあります。

エネルギーコスト WIKITEXT-2を除くすべてのデータセットにおいて,4台のGeForce GTX 1080 Ti GPUを用いて,モデルとそのバリエーションを学習しました. WIKITEXT-2の実験では、1台のGPUしか使いません。 Transformerとその亜種は、学習に時間がかかります(WIKITEXT-103、LAMBADA、ENWIK8でそれぞれ40時間、102時間、108時間)。 一方、我々が開発したNPLMには注目モジュールがないため、学習速度は比較的速くなっています(上記データセットにおいて、32時間、45時間、88時間)。 これらのモデルの学習・調整や、プロジェクトの初期段階での探索実験にかかるエネルギーコストは無視できません。 とはいえ、Transformer社のモデルと比較すると、最新のNPLMはトレーニング時間を大幅に短縮しており、その結果、カーボンコストも削減されています。 私たちの研究が、よりシンプルで効率的な言語モデルの開発を目指す将来の研究に役立つ洞察を含んでいることを願っています。