Skywork series models are pre-trained on 3.2TB of high-quality multilingual (mainly Chinese and English) and code data. We have open-sourced the model, training data, evaluation data, evaluation methods, etc. 天工系列模型在3.2TB高质量多语言和代码数据上进行预训练。我们开源了模型参数,训练数据,评估数据,评估方法。
readme 里面提到最终的 ppl 是由 loss_a * token_a / token_s,但是 token_s 是自己手动分词再算吗?为什么不在 eval_loss.py 里面指出输出最终的 ppl 呢?