Open Taishi-N324 opened 3 weeks ago
8x1.8Bを2.1Tでスクラッチ学習を行う
モデルカードPR: https://github.com/llm-jp/model-cards/pull/25
LLM-JP-MoE-2024年度後期実験計画 のBaseline1 Megatron-LMでの学習
sakura:/data/llm-jp-corpus/v3.{0,1}.0
sakura:/data/experiments/0071_v3-8x1.8b-exp1
sakura:/home/shared/experiments/0071_v3-8x1.8b-exp1
Overview
8x1.8Bを2.1Tでスクラッチ学習を行う
Details
モデルカードPR: https://github.com/llm-jp/model-cards/pull/25
LLM-JP-MoE-2024年度後期実験計画 のBaseline1 Megatron-LMでの学習
Resources
sakura:/data/llm-jp-corpus/v3.{0,1}.0
sakura:/data/experiments/0071_v3-8x1.8b-exp1
sakura:/home/shared/experiments/0071_v3-8x1.8b-exp1