vllm-project / vllm

A high-throughput and memory-efficient inference and serving engine for LLMs
https://docs.vllm.ai
Apache License 2.0
27.16k stars 3.99k forks source link

vllm,qwen-chat长度过长时,直接输出终止符 | when input is very long(6K), vllm output end_token directly #968

Closed Mrwangkedong closed 6 months ago

Mrwangkedong commented 1 year ago

input长度在6k左右,对于同一个api_server,短的文本(2k)可以生成摘要,但是6k的则直接输出终止符。

相同的6k长度的输入,对于调用qwen官方的hf的代码,可以正常输出摘要。

调了很多生成参数,结果不变。

大家有遇到过相似的吗?

lonngxiang commented 1 year ago

input长度在6k左右,对于同一个api_server,短的文本(2k)可以生成摘要,但是6k的则直接输出终止符。

相同的6k长度的输入,对于调用qwen官方的hf的代码,可以正常输出摘要。

调了很多生成参数,结果不变。

大家有遇到过相似的吗?

qwen 你知道history要怎么构造写吗

Mrwangkedong commented 1 year ago

input长度在6k左右,对于同一个api_server,短的文本(2k)可以生成摘要,但是6k的则直接输出终止符。 相同的6k长度的输入,对于调用qwen官方的hf的代码,可以正常输出摘要。 调了很多生成参数,结果不变。 大家有遇到过相似的吗?

qwen 你知道history要怎么构造写吗

试着改一下chat的代码,输出一下input_ids,然后看看 || 或者看一下那个chat构造代码

cgq0816 commented 1 year ago

input长度在6k左右,对于同一个api_server,短的文本(2k)可以生成摘要,但是6k的则直接输出终止符。

相同的6k长度的输入,对于调用qwen官方的hf的代码,可以正常输出摘要。

调了很多生成参数,结果不变。

大家有遇到过相似的吗?

请问一下长文本推理问题解决了吗?我这里也遇到该问题了

Mrwangkedong commented 1 year ago

input长度在6k左右,对于同一个api_server,短的文本(2k)可以生成摘要,但是6k的则直接输出终止符。 相同的6k长度的输入,对于调用qwen官方的hf的代码,可以正常输出摘要。 调了很多生成参数,结果不变。 大家有遇到过相似的吗?

请问一下长文本推理问题解决了吗?我这里也遇到该问题了

没解决~

hmellor commented 6 months ago

Closing this issue as stale as there has been no discussion in the past 3 months.

If you are still experiencing the issue you describe, feel free to re-open this issue.

beep-bebop commented 2 months ago

input长度在6k左右,对于同一个api_server,短的文本(2k)可以生成摘要,但是6k的则直接输出终止符。 相同的6k长度的输入,对于调用qwen官方的hf的代码,可以正常输出摘要。 调了很多生成参数,结果不变。 大家有遇到过相似的吗?

请问一下长文本推理问题解决了吗?我这里也遇到该问题了

没解决~

超过 max-model-len 的样本好像会被直接跳过,默认值是1k还是2k,6k是肯定超过这个长度的