Closed NEUMX closed 1 month ago
可以,llama的batchsize设为4可以跑起来,就是很慢
可以的,缩小batch_size即可,或者减少层数,替换base model为gpt2或者bert,都可以有效减少显存开销
@kwuking 你好,请问能用这个显卡运行llama模型吗
可以,llama的batchsize设为4可以跑起来,就是很慢