Open Taishi-N324 opened 3 weeks ago
LLM-jp-3 1.8B のリリース済みcheckpointである、llm-jp/llm-jp-3-1.8bにDrop-Upcycling (r=0.5)を適用をし, 8x1.8Bのcheckpointを構築したのち, 2.1Tデータでの学習を行う
モデルカードPR: https://github.com/llm-jp/model-cards/pull/26
Drop-Upcycling (r=0.5)の初期化方法に関しては、先にアブレーションを行う。アブレーションパターンに関しては、LLM-JP-MoE-2024年度後期実験計画 のBaseline2に詳細を記載 Megatron-LMでの学習
sakura:/data/llm-jp-corpus/v3.{0,1}.0
sakura:/data/experiments/0072_v3-8x1.8b-exp2
sakura:/home/shared/experiments/0072_v3-8x1.8b-exp2
Overview
LLM-jp-3 1.8B のリリース済みcheckpointである、llm-jp/llm-jp-3-1.8bにDrop-Upcycling (r=0.5)を適用をし, 8x1.8Bのcheckpointを構築したのち, 2.1Tデータでの学習を行う
Details
モデルカードPR: https://github.com/llm-jp/model-cards/pull/26
Drop-Upcycling (r=0.5)の初期化方法に関しては、先にアブレーションを行う。アブレーションパターンに関しては、LLM-JP-MoE-2024年度後期実験計画 のBaseline2に詳細を記載 Megatron-LMでの学習
Resources
sakura:/data/llm-jp-corpus/v3.{0,1}.0
sakura:/data/experiments/0072_v3-8x1.8b-exp2
sakura:/home/shared/experiments/0072_v3-8x1.8b-exp2