GPT3.5的评估结果相关问题

cppww commented 10 months ago

我这边基于test_data.jsonl的数据采用目前的GPT3.5-turbo测出来的指标比论文中提到的GPT3.5的结果高不少，所以想请问一下如下两个问题：

你们采用的GPT3.5是哪一个版本
你们是通过什么方式调用的GPT3.5得到的结果，是类似get_response.py中的history, query还是直接拼接prompt一次性输入
test数据中的4000多条你们是都给GPT3.5生成了结果并评估还是采样了一部分

morecry commented 10 months ago

您好，首先非常感谢您能关注我们的工作。下面是针对您的几个问题的回答：

我们用的GPT-3.5版本是gpt-3.5-turbo-1106，这个在论文里也写了
调用GPT3.5的方式是类似get_response.py的，通过构造角色扮演的history来完成的
论文里所有实验结果都是评估了全部4000多条样本

最后，我们认为GPT-3.5指标表现很差是合理的，因为观察到很多拒绝角色扮演的现象，比如它会说”我只是一个人工智能模型...“，如果您有别的疑惑欢迎随时沟通~

cppww commented 9 months ago

非常感谢您的回复！最近有几个新的问题。

请问一下你们调用GPT API的方式中role是像get_reponse.py中一样只用了user和assistant吗。我这边测下来，通过在history添加system或自行编写prompt得到整通对话的query（history只有一轮，role为user，content为整通对话的prompt），然后调用GPT API得到结果。这两种方式在GPT3.5和GPT4上都有远高于论文中GPT的指标。（主要是论文里GPT3.5和4的分太低了）
对于Qwen7B和14B，你们也是采用的def get_response_chatglm类似的方式，以List[tuple]调用Qwen model的chat方法吗？因为我没法复现出论文中的指标，算出来也比论文中偏高。
Baichuan2-13B上复现出来和论文中是一致的。最后非常谢谢你们的方法和工作，算是目前比较靠谱的eval了。

lycfight commented 5 months ago

非常感谢您的回复！最近有几个新的问题。

请问一下你们调用GPT API的方式中role是像get_reponse.py中一样只用了user和assistant吗。我这边测下来，通过在history添加system或自行编写prompt得到整通对话的query（history只有一轮，role为user，content为整通对话的prompt），然后调用GPT API得到结果。这两种方式在GPT3.5和GPT4上都有远高于论文中GPT的指标。（主要是论文里GPT3.5和4的分太低了）

对于Qwen7B和14B，你们也是采用的def get_response_chatglm类似的方式，以List[tuple]调用Qwen model的chat方法吗？因为我没法复现出论文中的指标，算出来也比论文中偏高。

Baichuan2-13B上复现出来和论文中是一致的。最后非常谢谢你们的方法和工作，算是目前比较靠谱的eval了。

你好，我想请教一下让GPT评估是怎么评的？有prompt可以参考一下吗？

cppww commented 5 months ago

非常感谢您的回复！最近有几个新的问题。

请问一下你们调用GPT API的方式中role是像get_reponse.py中一样只用了user和assistant吗。我这边测下来，通过在history添加system或自行编写prompt得到整通对话的query（history只有一轮，role为user，content为整通对话的prompt），然后调用GPT API得到结果。这两种方式在GPT3.5和GPT4上都有远高于论文中GPT的指标。（主要是论文里GPT3.5和4的分太低了）

对于Qwen7B和14B，你们也是采用的def get_response_chatglm类似的方式，以List[tuple]调用Qwen model的chat方法吗？因为我没法复现出论文中的指标，算出来也比论文中偏高。

Baichuan2-13B上复现出来和论文中是一致的。最后非常谢谢你们的方法和工作，算是目前比较靠谱的eval了。

你好，我想请教一下让GPT评估是怎么评的？有prompt可以参考一下吗？

可以参考这篇论文最后的prompt，ROLELLM: BENCHMARKING, ELICITING, AND ENHANCING ROLE-PLAYING ABILITIES OF LARGE LANGUAGE MODELS。将其中的给回复排序改成给单一回复打分，并给出每个对应分数的详细标准即可。

lycfight commented 5 months ago

您好，首先非常感谢您能关注我们的工作。下面是针对您的几个问题的回答：

我们用的GPT-3.5版本是gpt-3.5-turbo-1106，这个在论文里也写了

调用GPT3.5的方式是类似get_response.py的，通过构造角色扮演的history来完成的

论文里所有实验结果都是评估了全部4000多条样本

最后，我们认为GPT-3.5指标表现很差是合理的，因为观察到很多拒绝角色扮演的现象，比如它会说”我只是一个人工智能模型...“，如果您有别的疑惑欢迎随时沟通~

文中最后给的A Evaluation Result by GPT-4，可以给出具体的评估方式和prompt么？1~5分每个分数的详细标准是什么？

morecry / CharacterEval

GPT3.5的评估结果相关问题 #8