llama训练时，best状态存储导致训练卡顿，建议删除存储best文件部分代码，望记得更新

Tencent / TencentPretrain

Tencent Pre-training framework in PyTorch & Pre-trained Model Zoo

https://github.com/Tencent/TencentPretrain/wiki

Other

1.02k stars 140 forks source link

llama训练时，best状态存储导致训练卡顿，建议删除存储best文件部分代码，望记得更新 #52

Open baketbek opened 1 year ago

jamestch commented 1 year ago

大佬好，我在pretrain的时候也碰到了训练卡顿的情况，但不知道啥原因。请问是如何分析确定是存储best的部分代码造成卡顿呢？

baketbek commented 1 year ago

大佬好，我在pretrain的时候也碰到了训练卡顿的情况，但不知道啥原因。请问是如何分析确定是存储best的部分代码造成卡顿呢？

你看一下你是多少step存储，然后刚好那个步骤日志显示 saving best 以后就不训练了，就是这个问题，欢迎加微信沟通，437461219

jiangjingyao commented 1 year ago

你好，你训练完后文件有多大，我的很小，这是我的执行代码 python pretrain.py --pretrained_model_path models/llama-7b.bin --dataset_path dataset.pt --spm_model_path ../llama.cpp-master/zh-models/tokenizer.model --config_path models/llama/7b_config.json --output_model_path models/llama_zh_7b.bin --world_size 1 --gpu_ranks 0 --data_processor lm --total_steps 100 --save_checkpoint_steps 50 --batch_size 24 --use_lora --lora_dropout 0.0 --vocab_path models/google_zh_vocab.txt

zhanghaok commented 1 year ago

你好，你训练完后文件有多大，我的很小，这是我的执行代码 python pretrain.py --pretrained_model_path models/llama-7b.bin --dataset_path dataset.pt --spm_model_path ../llama.cpp-master/zh-models/tokenizer.model --config_path models/llama/7b_config.json --output_model_path models/llama_zh_7b.bin --world_size 1 --gpu_ranks 0 --data_processor lm --total_steps 100 --save_checkpoint_steps 50 --batch_size 24 --use_lora --lora_dropout 0.0 --vocab_path models/google_zh_vocab.txt

你的训练代码中出现了这个参数--vocab_path models/google_zh_vocab.txt请问这个可是我在代码中没有发现这个参数啊，请问是怎么回事呢？