支持TencentPretrain - Githubissues

feifeibear commented 3 years ago

TencentPretrain是TEG数据安全中心的repo，我们可以利用它们的模型结构和数据 https://git.woa.com/TencentNLP/TencentPretrain/merge_requests/61 TencentPretrain还有一个野生开源项目 https://github.com/dbiir/UER-py

feifeibear commented 3 years ago

感觉accuracy很相似，速度差点，不过可能是模型太小，这样派大星的overhead引起的。派大星可以把batch增大到128，达到39072.26 tokens/s吞吐。

feifeibear commented 3 years ago

feifeibear commented 3 years ago

"tie_weights": true不支持如果用use_cpu_embedding会报错如果不用则存在一个参数被复用的情况，触发已知的异常 File "/home/jiaruifang/codes/HybridPS/patrickstar/core/hook.py", line 179, in pre_sub_module_backward_function assert param.ps_attr.bwd_cnt == 0, f"Backward Propagation updates the gradient of a parameter twice. This is not allowed when using chunk reusing."

feifeibear commented 3 years ago

一个蛋疼的问题，有人可能这样写代码，但是PatrickStar并无法区分weight tensor被两个param共享的情况。 https://git.woa.com/TencentNLP/TencentPretrain/blob/master/tencentpretrain/models/model.py#L21

针对tie weight，即第一层embedding weight和最后一层linear的weight共享参数，目前存在的问题：

use_cpu_embedding和tie weight冲突，因为embedding weight在第一层被当成torch param在cpu上计算nn.Embedding，在最后一层却需要在gpu上计算，pre_forward_hook目前无法正确处理。
PreprocessCtx构造模型的，chunk-tensor-index包含一个无用的tensor（来自共享后应该删除的tensor）。
use_cpu_embedding=False时，收敛性不正确。我不确定现在共享参数的反向传播是否实现正确了。 badcase复现 https://git.woa.com/jiaruifang/TencentPretrain/merge_requests/1

zhuzilin commented 3 years ago

环境

1xV100

运行指令

python preprocess.py --corpus_path corpora/book_review.txt --vocab_path models/google_zh_vocab.txt \
                      --dataset_path dataset.pt --processes_num 8 --target lm

python -m torch.distributed.launch --nproc_per_node=1 pretrain.py \
                    --dataset_path dataset.pt --vocab_path models/google_zh_vocab.txt \
                    --output_model_path models/output_model.bin \
                    --config_path models/gpt2/config_patrickstar_v2.json --learning_rate 1e-4 \
                    --world_size 1 --gpu_ranks 0 \
                    --embedding word_pos --remove_embedding_layernorm \
                    --encoder transformer --mask causal --layernorm_positioning pre \
                    --target lm \
                    --total_steps 500 --batch_size 64 \
                    --fp16 --report_steps 100 \
                    --use_patrickstar

配置

{
  "emb_size": 768,
  "feedforward_size": 3072,
  "hidden_size": 768,
  "hidden_act": "gelu_fast",
  "heads_num": 4,
  "layers_num": 3,
  "max_seq_length": 1024,
  "dropout": 0.1,
  "embedding": "word_pos",
  "remove_embedding_layernorm": true,
  "encoder": "transformer",
  "mask": "causal",
  "layernorm_positioning": "pre",
  "target": "lm"
}

运行结果：

patrickstar use_cpu_embedding = True | 100/ 500 steps| 21735.86 tokens/s| loss 6.90| acc: 0.056 | 200/ 500 steps| 24045.79 tokens/s| loss 5.90| acc: 0.106 | 300/ 500 steps| 24777.70 tokens/s| loss 5.49| acc: 0.146 | 400/ 500 steps| 24675.35 tokens/s| loss 5.26| acc: 0.165 | 500/ 500 steps| 22838.04 tokens/s| loss 5.09| acc: 0.176
patrickstar use_cpu_embedding = False | 100/ 500 steps| 49792.88 tokens/s| loss 6.90| acc: 0.056 | 200/ 500 steps| 73055.65 tokens/s| loss 5.90| acc: 0.106 | 300/ 500 steps| 72733.26 tokens/s| loss 5.49| acc: 0.146 | 400/ 500 steps| 71993.03 tokens/s| loss 5.26| acc: 0.165 | 500/ 500 steps| 59033.95 tokens/s| loss 5.09| acc: 0.176
apex O1 | 100/ 500 steps| 61843.22 tokens/s| loss 6.87| acc: 0.054 | 200/ 500 steps| 98121.80 tokens/s| loss 5.83| acc: 0.107 | 300/ 500 steps| 98702.82 tokens/s| loss 5.38| acc: 0.152 | 400/ 500 steps| 98349.93 tokens/s| loss 5.19| acc: 0.170 | 500/ 500 steps| 75288.15 tokens/s| loss 5.10| acc: 0.177
apex O2 | 100/ 500 steps| 77366.48 tokens/s| loss 6.87| acc: 0.054 | 200/ 500 steps| 141294.21 tokens/s| loss 5.83| acc: 0.108 | 300/ 500 steps| 140895.76 tokens/s| loss 5.37| acc: 0.152 | 400/ 500 steps| 141854.47 tokens/s| loss 5.18| acc: 0.171 | 500/ 500 steps| 98582.75 tokens/s| loss 5.10| acc: 0.177

Tencent / PatrickStar

支持TencentPretrain #57

环境

运行指令

配置

运行结果：