morecry / CharacterEval

180 stars 10 forks source link

GPT3.5的评估结果相关问题 #8

Open cppww opened 10 months ago

cppww commented 10 months ago

我这边基于test_data.jsonl的数据采用目前的GPT3.5-turbo测出来的指标比论文中提到的GPT3.5的结果高不少,所以想请问一下如下两个问题:

  1. 你们采用的GPT3.5是哪一个版本
  2. 你们是通过什么方式调用的GPT3.5得到的结果,是类似get_response.py中的history, query还是直接拼接prompt一次性输入
  3. test数据中的4000多条你们是都给GPT3.5生成了结果并评估还是采样了一部分
morecry commented 10 months ago

您好,首先非常感谢您能关注我们的工作。下面是针对您的几个问题的回答:

  1. 我们用的GPT-3.5版本是gpt-3.5-turbo-1106,这个在论文里也写了
  2. 调用GPT3.5的方式是类似get_response.py的,通过构造角色扮演的history来完成的
  3. 论文里所有实验结果都是评估了全部4000多条样本

最后,我们认为GPT-3.5指标表现很差是合理的,因为观察到很多拒绝角色扮演的现象,比如它会说”我只是一个人工智能模型...“,如果您有别的疑惑欢迎随时沟通~

cppww commented 9 months ago

非常感谢您的回复!最近有几个新的问题。

  1. 请问一下你们调用GPT API的方式中role是像get_reponse.py中一样只用了user和assistant吗。我这边测下来,通过在history添加system或自行编写prompt得到整通对话的query(history只有一轮,role为user,content为整通对话的prompt),然后调用GPT API得到结果。这两种方式在GPT3.5和GPT4上都有远高于论文中GPT的指标。(主要是论文里GPT3.5和4的分太低了)
  2. 对于Qwen7B和14B,你们也是采用的def get_response_chatglm类似的方式,以List[tuple]调用Qwen model的chat方法吗?因为我没法复现出论文中的指标,算出来也比论文中偏高。
  3. Baichuan2-13B上复现出来和论文中是一致的。最后非常谢谢你们的方法和工作,算是目前比较靠谱的eval了。
lycfight commented 5 months ago

非常感谢您的回复!最近有几个新的问题。

  1. 请问一下你们调用GPT API的方式中role是像get_reponse.py中一样只用了user和assistant吗。我这边测下来,通过在history添加system或自行编写prompt得到整通对话的query(history只有一轮,role为user,content为整通对话的prompt),然后调用GPT API得到结果。这两种方式在GPT3.5和GPT4上都有远高于论文中GPT的指标。(主要是论文里GPT3.5和4的分太低了)
  2. 对于Qwen7B和14B,你们也是采用的def get_response_chatglm类似的方式,以List[tuple]调用Qwen model的chat方法吗?因为我没法复现出论文中的指标,算出来也比论文中偏高。
  3. Baichuan2-13B上复现出来和论文中是一致的。最后非常谢谢你们的方法和工作,算是目前比较靠谱的eval了。

你好,我想请教一下让GPT评估是怎么评的?有prompt可以参考一下吗?

cppww commented 5 months ago

非常感谢您的回复!最近有几个新的问题。

  1. 请问一下你们调用GPT API的方式中role是像get_reponse.py中一样只用了user和assistant吗。我这边测下来,通过在history添加system或自行编写prompt得到整通对话的query(history只有一轮,role为user,content为整通对话的prompt),然后调用GPT API得到结果。这两种方式在GPT3.5和GPT4上都有远高于论文中GPT的指标。(主要是论文里GPT3.5和4的分太低了)
  2. 对于Qwen7B和14B,你们也是采用的def get_response_chatglm类似的方式,以List[tuple]调用Qwen model的chat方法吗?因为我没法复现出论文中的指标,算出来也比论文中偏高。
  3. Baichuan2-13B上复现出来和论文中是一致的。最后非常谢谢你们的方法和工作,算是目前比较靠谱的eval了。

你好,我想请教一下让GPT评估是怎么评的?有prompt可以参考一下吗?

可以参考这篇论文最后的prompt,ROLELLM: BENCHMARKING, ELICITING, AND ENHANCING ROLE-PLAYING ABILITIES OF LARGE LANGUAGE MODELS。将其中的给回复排序改成给单一回复打分,并给出每个对应分数的详细标准即可。

lycfight commented 5 months ago

您好,首先非常感谢您能关注我们的工作。下面是针对您的几个问题的回答:

  1. 我们用的GPT-3.5版本是gpt-3.5-turbo-1106,这个在论文里也写了
  2. 调用GPT3.5的方式是类似get_response.py的,通过构造角色扮演的history来完成的
  3. 论文里所有实验结果都是评估了全部4000多条样本

最后,我们认为GPT-3.5指标表现很差是合理的,因为观察到很多拒绝角色扮演的现象,比如它会说”我只是一个人工智能模型...“,如果您有别的疑惑欢迎随时沟通~

文中最后给的A Evaluation Result by GPT-4,可以给出具体的评估方式和prompt么?1~5分每个分数的详细标准是什么?