Tlntin / qwen-ascend-llm

Apache License 2.0
25 stars 2 forks source link

推理结果输出不对 #4

Closed Carious-ads closed 3 weeks ago

Carious-ads commented 3 weeks ago

我是使用OpenEuler系统,没有使用docker镜像,手动转换om模型,在推理时输出这个结果: image

Tlntin commented 3 weeks ago

看报错日志,貌似是转模型的时候没有设置动态shape

Carious-ads commented 3 weeks ago

看报错日志,貌似是转模型的时候没有设置动态shape 这个是我的转换过程,按照你提供的转换流程进行转换 image image

Tlntin commented 3 weeks ago

看操作没有问题,你试试onnx推理正常嘛?

Carious-ads commented 3 weeks ago

看操作没有问题,你试试onnx推理正常嘛? onnx推理是正常的 image

Tlntin commented 3 weeks ago

那可能就是CANN的问题了,你的CANN版本是?python版本是?

Carious-ads commented 3 weeks ago

那可能就是CANN的问题了,你的CANN版本是?python版本是?

CANN是8.0.RC2,python是3.9

Tlntin commented 3 weeks ago

突然发现你上面的kv-cache比较长,你可以用默认的1024试试。太长了你的内存可能不够用。

Carious-ads commented 3 weeks ago

突然发现你上面的kv-cache比较长,你可以用默认的1024试试。太长了你的内存可能不够用。 我的内存是24G+swp16G的,我试试1024行不行

Carious-ads commented 3 weeks ago

突然发现你上面的kv-cache比较长,你可以用默认的1024试试。太长了你的内存可能不够用。

默认1024没有问题,感谢

Tlntin commented 3 weeks ago

不客气。

Tlntin commented 3 weeks ago

@Carious-ads 你转onnx的时候设置kv-cache-length是4096, 那么在cli_chat的时候需要加上--max_output_length也为4096。不加的话,会导致shape出错,所以你上面才报错了,晚点我会把这个加到readme说明一下。

Carious-ads commented 3 weeks ago

@Carious-ads 你转onnx的时候设置kv-cache-length是4096, 那么在cli_chat的时候需要加上--max_output_length也为4096。不加的话,会导致shape出错,所以你上面才报错了,晚点我会把这个加到readme说明一下。

好的