推理的效果很奇怪，能否帮忙看一下原因

ccyhxg commented 1 year ago

直接用huggingface的pipeline推理无法使用GPU，然后示例代码如下： from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("chitanda/llama-panda-zh-coig-7b-delta") model = AutoModelForCausalLM.from_pretrained("chitanda/llama-panda-zh-coig-7b-delta") model.cuda() prompt = "<|Human|>:你好\n<|bot|>:" inputs = tokenizer(prompt, return_tensors='pt').to('cuda') del inputs["token_type_ids"] tokens = model.generate( **inputs, max_new_tokens=256, do_sample=True, temperature=1.0, top_p=1.0, ) print(tokenizer.decode(tokens[0], skip_special_tokens=True)) 结果很奇怪

SparkJiao commented 1 year ago

chitanda/llama-panda-zh-coig-7b-delta是我们权重与LLaMA原版权重的差值，不能直接做推理，需要先与原始LLaMA的HF版本权重合并后再推理。

可以参考目录下apply_delta.py先进行合并，脚本文件最上端有注释提醒如何使用。

SparkJiao commented 1 year ago

另外我们的模型在训练的时候没有使用诸如<|Human|>, <|Bot|>之类的前缀，所以不需要加这些，直接输入指令即可。

dandelionsllm / pandallm

推理的效果很奇怪，能否帮忙看一下原因 #9