推理结果输出不对

Tlntin / qwen-ascend-llm

Apache License 2.0

25 stars 2 forks source link

Closed Carious-ads closed 3 weeks ago

Carious-ads commented 3 weeks ago

我是使用OpenEuler系统，没有使用docker镜像，手动转换om模型，在推理时输出这个结果：

Tlntin commented 3 weeks ago

看报错日志，貌似是转模型的时候没有设置动态shape

Carious-ads commented 3 weeks ago

看报错日志，貌似是转模型的时候没有设置动态shape 这个是我的转换过程，按照你提供的转换流程进行转换

Tlntin commented 3 weeks ago

看操作没有问题，你试试onnx推理正常嘛？

Carious-ads commented 3 weeks ago

看操作没有问题，你试试onnx推理正常嘛？ onnx推理是正常的

Tlntin commented 3 weeks ago

那可能就是CANN的问题了，你的CANN版本是？python版本是？

Carious-ads commented 3 weeks ago

那可能就是CANN的问题了，你的CANN版本是？python版本是？

CANN是8.0.RC2，python是3.9

Tlntin commented 3 weeks ago

突然发现你上面的kv-cache比较长，你可以用默认的1024试试。太长了你的内存可能不够用。

Carious-ads commented 3 weeks ago

突然发现你上面的kv-cache比较长，你可以用默认的1024试试。太长了你的内存可能不够用。我的内存是24G+swp16G的，我试试1024行不行

Carious-ads commented 3 weeks ago

突然发现你上面的kv-cache比较长，你可以用默认的1024试试。太长了你的内存可能不够用。

默认1024没有问题，感谢

Tlntin commented 3 weeks ago

不客气。

Tlntin commented 3 weeks ago

@Carious-ads 你转onnx的时候设置kv-cache-length是4096，那么在cli_chat的时候需要加上--max_output_length也为4096。不加的话，会导致shape出错，所以你上面才报错了，晚点我会把这个加到readme说明一下。

Carious-ads commented 3 weeks ago

@Carious-ads 你转onnx的时候设置kv-cache-length是4096，那么在cli_chat的时候需要加上--max_output_length也为4096。不加的话，会导致shape出错，所以你上面才报错了，晚点我会把这个加到readme说明一下。

好的