Closed Taishi-N324 closed 3 weeks ago
LLM-jp-3 1.8B のリリース済みcheckpointである、llm-jp/llm-jp-3-1.8bにDrop-Upcycling (r=0.5)を適用をし, 8x1.8Bのcheckpointを構築したのち, 2.1Tデータでの学習を行う
モデルカードPR: https://github.com/llm-jp/model-cards/pull/26
Drop-Upcycling (r=0.5)の初期化方法に関しては、先にアブレーションを行う。アブレーションパターンに関しては、LLM-JP-MoE-2024年度後期実験計画 のBaseline2に詳細を記載
sakura:/data/llm-jp-corpus/v3.{0,1}.0
sakura:/data/experiments/0061_v3-8x1.8b-exp2
sakura:/home/shared/experiments/0061_v3-8x1.8b-exp2
速度の観点から、 https://github.com/llm-jp/experiments/issues/72 に移行します
Overview
LLM-jp-3 1.8B のリリース済みcheckpointである、llm-jp/llm-jp-3-1.8bにDrop-Upcycling (r=0.5)を適用をし, 8x1.8Bのcheckpointを構築したのち, 2.1Tデータでの学習を行う
Details
モデルカードPR: https://github.com/llm-jp/model-cards/pull/26
Drop-Upcycling (r=0.5)の初期化方法に関しては、先にアブレーションを行う。アブレーションパターンに関しては、LLM-JP-MoE-2024年度後期実験計画 のBaseline2に詳細を記載
Resources
sakura:/data/llm-jp-corpus/v3.{0,1}.0
sakura:/data/experiments/0061_v3-8x1.8b-exp2
sakura:/home/shared/experiments/0061_v3-8x1.8b-exp2