ResponseBatch 返回结果不正确

ztxz16 / fastllm

纯c++的全平台llm加速库，支持python调用，chatglm-6B级模型单卡可达10000+token / s，支持glm, llama, moss基座，手机端流畅运行

Apache License 2.0

3.23k stars 325 forks source link

Open Liufeiran123 opened 4 months ago

Liufeiran123 commented 4 months ago

同一batch中的prompt，有的prompt返回正确，有的prompt返回不正确，检查后发现是padding 的问题，代码中并没有padding mask的相关实现啊。

TylunasLi commented 4 months ago

您好，您是否可以提供一个复现的例子呢？据我观察代码''FillLLMInputs方法似乎没有做前向的padding。

Liufeiran123 commented 4 months ago

您好，您是否可以提供一个复现的例子呢？据我观察代码''FillLLMInputs方法似乎没有做前向的padding。

是的，没实现padding。所以batch输出结果不正确。

TylunasLi commented 4 months ago

您好，您是否可以提供一个复现的例子呢？据我观察代码''FillLLMInputs方法似乎没有做前向的padding。

是的，没实现padding。所以batch输出结果不正确。

看了一下代码，

ChatGLMModel实现了FillLLMInputsBatch()方法，是默认值0做的前向padding；attention mask做了处理；
LlamaModel没实现FillLLMInputsBatch()方法，在ResponseBatch()中，默认值0做前向padding（应该用pad_token_id）；attention mask做了处理；
QWenModel实现了FillLLMInputsBatch()方法，但没有做前向padding。

Liufeiran123 commented 4 months ago

@ztxz16 有计划增加qwen的 batch推理 padding支持吗。

Liufeiran123 commented 4 months ago

经过测试 baichuan2的 batch推理是正常的。