CVI-SZU / Linly

Chinese-LLaMA 1&2、Chinese-Falcon 基础模型;ChatFlow中文对话模型;中文OpenLLaMA模型;NLP预训练/指令微调数据集
3.03k stars 235 forks source link

huggingface上openllama-13b的模型大小为26.4G,转换为huggingface那种模型格式之后模型大小为24.7G,这也就是大概是以fp16或者是bf16保存的模型 #119

Open belle9217 opened 1 year ago

belle9217 commented 1 year ago

huggingface上openllama-13b的模型大小为26.4G,转换为huggingface那种模型格式之后模型大小为24.7G,这也就是大概是以fp16或者是bf16保存的模型,那这样的话,请问我在加载这个权重时候需要设置什么参数吗,还是直接加载这种半精度的权重进行训练?ps:我试了直接用半精度的权重进行训练,模型的生成结果重复的比较多,我在想是不是要把权重转换为fp32那种,还是全程都用fp16那种进行训练,因此影响了模型的精度。