-
Hi, I encountered the error described in the title of this issue, while trying to run the gpt-2 example. Here is my command:
```
export CUDA_VISIBLE_DEVICES=7
torchrun --nnodes=1 --nproc_per_node=1…
-
报错如下:
nccl.obj : error LNK2001: 无法解析的外部符号 ncclCommInitRank
。。。
build\lib.win-amd64-cpython-39\bmtrain\nccl\_C.cp39-win_amd64.pyd : fatal error LNK1120: 15 个无法解析的外部命令。
感谢。
-
### Is your feature request related to a problem? Please describe.
非常赞赏学长们的工作!我有一个小小的问题注意到readme里有一个吞吐和显存占用的表格。BMtrain显著优于Deepspeed- megaton,我好奇这其中的优化主要来源于什么地方呢。同样的逻辑,为什么我们能够支持更多的bach size,吞吐更高?是否也有显…
-
Hi, now for the big model ,we need train model use many dirstribute machine, so in python version we could use distribute assert to declear train model in many machine ,but now in javacpp pytorch,…
-
CPM 使用微调脚本训练, 不开启 --use-delta 这一选项,则出现如下错误:
Traceback (most recent call last):
File "finetune_cpm_bee.py", line 503, in
main()
File "finetune_cpm_bee.py", line 499, in main
finetune(…
-
通过BMCook进行模型压缩,配置了quantization和distillation,训练的loss收敛的很好。但是保存模型的时候,发现保存的checkpoint文件并没有减少,分析发现线性层的参数还是fp32的。
另外bmtrain的优化器AdamOffloadOptimizer和AdamOptimizer也只支持参数保存为fp32和fp16,并没有实现参数保存为int8。
-
运行pretrain_cpm_bee.sh脚本
修改了dataset指定datasets.json
``` json
[
{
"dataset_name": "pretrain",
"task_name": "mlm",
"weight": 1.0,
"path": "/home/litao/ScienGU…
-
When I try to run the examples :`bash gpt/gpt2_test.sh`
It fails and throws out the following errors:
> File "/workspace/BMCook/examples/gpt/gpt2_test.py", line 84, in main …
-
尝试了很多版本也不知道哪里出问题了
反正就是安装不上 有的时候提示torch没有 有的时候有提示gcc
重新安装了数次 我的是在dock环境里面
折腾了2天了 环境还没有配好
万分感谢啦
-
使用finetune_cpm_bee微调时,基础模型加载不了
### finetune_cpm_bee.sh中的参数如下:
OPTS+=" --use-delta"
OPTS+=" --model-config config/cpm-bee-1b.json"
...
OPTS+=" --load cpm-bee-1b/pytorch_model.bin"
### 报错信息如下
…