llm-jp / experiments

Issue-Only Pretrain Task Management Repository
0 stars 0 forks source link

[事前学習] - MoE Baseline2 #72

Open Taishi-N324 opened 3 weeks ago

Taishi-N324 commented 3 weeks ago

Overview

LLM-jp-3 1.8B のリリース済みcheckpointである、llm-jp/llm-jp-3-1.8bにDrop-Upcycling (r=0.5)を適用をし, 8x1.8Bのcheckpointを構築したのち, 2.1Tデータでの学習を行う

Details

モデルカードPR: https://github.com/llm-jp/model-cards/pull/26

Drop-Upcycling (r=0.5)の初期化方法に関しては、先にアブレーションを行う。アブレーションパターンに関しては、LLM-JP-MoE-2024年度後期実験計画 のBaseline2に詳細を記載 Megatron-LMでの学習

Resources