vllm，qwen-chat长度过长时，直接输出终止符 | when input is very long(6K), vllm output end_token directly

vllm-project / vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

https://docs.vllm.ai

Apache License 2.0

27.16k stars 3.99k forks source link

vllm，qwen-chat长度过长时，直接输出终止符 | when input is very long(6K), vllm output end_token directly #968

Closed Mrwangkedong closed 6 months ago

Mrwangkedong commented 1 year ago

input长度在6k左右，对于同一个api_server，短的文本（2k）可以生成摘要，但是6k的则直接输出终止符。

相同的6k长度的输入，对于调用qwen官方的hf的代码，可以正常输出摘要。

调了很多生成参数，结果不变。

大家有遇到过相似的吗？

lonngxiang commented 1 year ago

input长度在6k左右，对于同一个api_server，短的文本（2k）可以生成摘要，但是6k的则直接输出终止符。

相同的6k长度的输入，对于调用qwen官方的hf的代码，可以正常输出摘要。

调了很多生成参数，结果不变。

大家有遇到过相似的吗？

qwen 你知道history要怎么构造写吗

Mrwangkedong commented 1 year ago

input长度在6k左右，对于同一个api_server，短的文本（2k）可以生成摘要，但是6k的则直接输出终止符。相同的6k长度的输入，对于调用qwen官方的hf的代码，可以正常输出摘要。调了很多生成参数，结果不变。大家有遇到过相似的吗？

qwen 你知道history要怎么构造写吗

试着改一下chat的代码，输出一下input_ids，然后看看 || 或者看一下那个chat构造代码

cgq0816 commented 1 year ago

input长度在6k左右，对于同一个api_server，短的文本（2k）可以生成摘要，但是6k的则直接输出终止符。

相同的6k长度的输入，对于调用qwen官方的hf的代码，可以正常输出摘要。

调了很多生成参数，结果不变。

大家有遇到过相似的吗？

请问一下长文本推理问题解决了吗？我这里也遇到该问题了

Mrwangkedong commented 1 year ago

input长度在6k左右，对于同一个api_server，短的文本（2k）可以生成摘要，但是6k的则直接输出终止符。相同的6k长度的输入，对于调用qwen官方的hf的代码，可以正常输出摘要。调了很多生成参数，结果不变。大家有遇到过相似的吗？

请问一下长文本推理问题解决了吗？我这里也遇到该问题了

没解决~

hmellor commented 6 months ago

Closing this issue as stale as there has been no discussion in the past 3 months.

If you are still experiencing the issue you describe, feel free to re-open this issue.

beep-bebop commented 2 months ago

input长度在6k左右，对于同一个api_server，短的文本（2k）可以生成摘要，但是6k的则直接输出终止符。相同的6k长度的输入，对于调用qwen官方的hf的代码，可以正常输出摘要。调了很多生成参数，结果不变。大家有遇到过相似的吗？

请问一下长文本推理问题解决了吗？我这里也遇到该问题了

没解决~

超过 max-model-len 的样本好像会被直接跳过，默认值是1k还是2k，6k是肯定超过这个长度的