Closed FoolMark closed 5 months ago
你好,我们只用过GPT-4 score + VLLM推理的结果。https://github.com/deepseek-ai/DeepSeek-LLM/pull/35 具体的输出可以在这里面看到。你用huggingface的方法看上去没有问题。
感谢回复,这里也repo一下,拿你提供的结果上传测评,score是在5.90左右 download.csv
目前看来AlignBench官方提供的CritiqueLLM 模型在高分段可能和GPT4的一致性没有这么高,感觉还是以GPT4的得分为准比较妥当
注意到你们的模型在alignbench上的sota表现于是尝试复现了一下
我的认知里这个应该是低于预期的(虽然没有控制变量), 我推测大概是生成过程的问题, 我这边简单参考了huggingface上提供的例子写的generate过程如下,大概就按照官方的setting改了temperature参数,其他都是default
请问如果要复现tech report中相近的精度,有没有更正确的template? 谢谢!