Closed Taishi-N324 closed 3 weeks ago
8x1.8Bを2.1Tでスクラッチ学習を行う
モデルカードPR: https://github.com/llm-jp/model-cards/pull/25
LLM-JP-MoE-2024年度後期実験計画 のBaseline1
sakura:/data/llm-jp-corpus/v3.{0,1}.0
sakura:/data/experiments/0059_v3-8x1.8b-exp1
sakura:/home/shared/experiments/0059_v3-8x1.8b-exp1
速度の観点から、 https://github.com/llm-jp/experiments/issues/71 に移行します
Overview
8x1.8Bを2.1Tでスクラッチ学習を行う
Details
モデルカードPR: https://github.com/llm-jp/model-cards/pull/25
LLM-JP-MoE-2024年度後期実験計画 のBaseline1
Resources
sakura:/data/llm-jp-corpus/v3.{0,1}.0
sakura:/data/experiments/0059_v3-8x1.8b-exp1
sakura:/home/shared/experiments/0059_v3-8x1.8b-exp1