IEIT-Yuan / Yuan-2.0

Yuan 2.0 Large Language Model
Other
681 stars 85 forks source link

基于TensorRT-LLM的Yuan 2.0推理服务2B-hf版编译试用问题 #127

Open 18842685792 opened 7 months ago

18842685792 commented 7 months ago

1.build时调整脚本input和output参数为4096会build失败,这个上限值是多少 2.build时调整脚本output为2048可以build成功,但是实际推理结果跟output默认512基本一样,没有改变,是否是有多个参数需要联合调整才能生效 image 3.启动tritonserver服务时,设置跳过符号未生效 image image

IEI-mjx commented 7 months ago

1.这个上限值是跟你显卡的显存有关,显存越高这个上限越高(我这里A800的显卡上限值是8192) 2.推理过程的输出token数跟设置的“--max_output_len”有关,请参考README_Yuan.md设置此参数

zhaoxudong01 commented 6 months ago

推理服务,发送请求的时候,是否有指定"end_id": 77185?我们测试是可以正常提前结束的。