ProjectD-AI / llama_inference

llama inference for tencentpretrain
GNU General Public License v3.0
96 stars 11 forks source link

多卡推理 #16

Closed yingzhao27 closed 1 year ago

yingzhao27 commented 1 year ago

7B模型推理时,使用4卡比2卡几乎快了一倍;但13B推理时4卡比2卡慢了一倍,请问是不是不太正常

fengyh3 commented 1 year ago

按理说是不应该,可以提供更多细节吗?例如用的什么卡,生成的句子长度是否一致,还有就是推理是7B和13B的脚本等。

yingzhao27 commented 1 year ago

按理说是不应该,可以提供更多细节吗?例如用的什么卡,生成的句子长度是否一致,还有就是推理是7B和13B的脚本等。

不过有一个地方是,我7b推理时用的zero_to_fp32.py转换的fp32的模型,而13b推理用的是直接保存的fp16的pytorch_model.bin;两种推理情况下都没有注释”torch.set_default_tensor_type(torch.HalfTensor)“;请问使用的模型是否会有影响呢?
我用的16GB的显卡,使用llama_infer.py推理的,句子生成长度不一样,7B时设置的--seq_length=256,13B时设置的--seq_length=1024;

fengyh3 commented 1 year ago

首先长度那个不一样很可能影响推理速度,要不你试试先对齐其他的参数? 然后代码默认是使用的fp16,估计你两个模型都会转成fp16的

yingzhao27 commented 1 year ago

其他参数对齐了还是一样的情况