Open Liufeiran123 opened 4 months ago
您好,您是否可以提供一个复现的例子呢?据我观察代码''FillLLMInputs方法似乎没有做前向的padding。
您好,您是否可以提供一个复现的例子呢?据我观察代码''FillLLMInputs方法似乎没有做前向的padding。
是的,没实现padding。所以batch输出结果不正确。
您好,您是否可以提供一个复现的例子呢?据我观察代码''FillLLMInputs方法似乎没有做前向的padding。
是的,没实现padding。所以batch输出结果不正确。
看了一下代码,
ChatGLMModel
实现了FillLLMInputsBatch()
方法,是默认值0做的前向padding;attention mask做了处理;LlamaModel
没实现FillLLMInputsBatch()
方法,在ResponseBatch()
中,默认值0做前向padding(应该用pad_token_id);attention mask做了处理;QWenModel
实现了FillLLMInputsBatch()
方法,但没有做前向padding。@ztxz16 有计划增加qwen的 batch推理 padding支持吗。
经过测试 baichuan2的 batch推理是正常的。
同一batch中的prompt,有的prompt返回正确,有的prompt返回不正确,检查后发现是padding 的问题,代码中并没有padding mask的相关实现啊。