多卡推理 - Githubissues

yingzhao27 commented 1 year ago

7B模型推理时，使用4卡比2卡几乎快了一倍；但13B推理时4卡比2卡慢了一倍，请问是不是不太正常

fengyh3 commented 1 year ago

按理说是不应该，可以提供更多细节吗？例如用的什么卡，生成的句子长度是否一致，还有就是推理是7B和13B的脚本等。

yingzhao27 commented 1 year ago

按理说是不应该，可以提供更多细节吗？例如用的什么卡，生成的句子长度是否一致，还有就是推理是7B和13B的脚本等。

不过有一个地方是，我7b推理时用的zero_to_fp32.py转换的fp32的模型，而13b推理用的是直接保存的fp16的pytorch_model.bin；两种推理情况下都没有注释”torch.set_default_tensor_type(torch.HalfTensor)“；请问使用的模型是否会有影响呢？
我用的16GB的显卡，使用llama_infer.py推理的，句子生成长度不一样，7B时设置的--seq_length=256，13B时设置的--seq_length=1024；

fengyh3 commented 1 year ago

首先长度那个不一样很可能影响推理速度，要不你试试先对齐其他的参数？然后代码默认是使用的fp16，估计你两个模型都会转成fp16的

yingzhao27 commented 1 year ago

其他参数对齐了还是一样的情况

ProjectD-AI / llama_inference

多卡推理 #16