deepseek-ai / DeepSeek-LLM

DeepSeek LLM: Let there be answers
https://chat.deepseek.com/
MIT License
1.33k stars 87 forks source link

AlignBench测评结果复现求助 #32

Closed FoolMark closed 5 months ago

FoolMark commented 5 months ago

注意到你们的模型在alignbench上的sota表现于是尝试复现了一下

我的认知里这个应该是低于预期的(虽然没有控制变量), 我推测大概是生成过程的问题, 我这边简单参考了huggingface上提供的例子写的generate过程如下,大概就按照官方的setting改了temperature参数,其他都是default

       question = sample['question']
        temperature = sample['temperature']
        messages = [
            {
                "role": "user",
                "content": question
            }
        ]
        input_tensor = self.tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt")
        outputs = self.model.generate(input_tensor.to(self.model.device), temperature=temperature,max_new_tokens=2048)
        answer = self.tokenizer.decode(outputs[0][input_tensor.shape[1]:], skip_special_tokens=True)
        return answer

请问如果要复现tech report中相近的精度,有没有更正确的template? 谢谢!

DeepSeekPH commented 5 months ago

你好,我们只用过GPT-4 score + VLLM推理的结果。https://github.com/deepseek-ai/DeepSeek-LLM/pull/35 具体的输出可以在这里面看到。你用huggingface的方法看上去没有问题。

FoolMark commented 5 months ago

感谢回复,这里也repo一下,拿你提供的结果上传测评,score是在5.90左右 download.csv

目前看来AlignBench官方提供的CritiqueLLM 模型在高分段可能和GPT4的一致性没有这么高,感觉还是以GPT4的得分为准比较妥当