Open cppww opened 10 months ago
您好,首先非常感谢您能关注我们的工作。下面是针对您的几个问题的回答:
最后,我们认为GPT-3.5指标表现很差是合理的,因为观察到很多拒绝角色扮演的现象,比如它会说”我只是一个人工智能模型...“,如果您有别的疑惑欢迎随时沟通~
非常感谢您的回复!最近有几个新的问题。
非常感谢您的回复!最近有几个新的问题。
- 请问一下你们调用GPT API的方式中role是像get_reponse.py中一样只用了user和assistant吗。我这边测下来,通过在history添加system或自行编写prompt得到整通对话的query(history只有一轮,role为user,content为整通对话的prompt),然后调用GPT API得到结果。这两种方式在GPT3.5和GPT4上都有远高于论文中GPT的指标。(主要是论文里GPT3.5和4的分太低了)
- 对于Qwen7B和14B,你们也是采用的def get_response_chatglm类似的方式,以List[tuple]调用Qwen model的chat方法吗?因为我没法复现出论文中的指标,算出来也比论文中偏高。
- Baichuan2-13B上复现出来和论文中是一致的。最后非常谢谢你们的方法和工作,算是目前比较靠谱的eval了。
你好,我想请教一下让GPT评估是怎么评的?有prompt可以参考一下吗?
非常感谢您的回复!最近有几个新的问题。
- 请问一下你们调用GPT API的方式中role是像get_reponse.py中一样只用了user和assistant吗。我这边测下来,通过在history添加system或自行编写prompt得到整通对话的query(history只有一轮,role为user,content为整通对话的prompt),然后调用GPT API得到结果。这两种方式在GPT3.5和GPT4上都有远高于论文中GPT的指标。(主要是论文里GPT3.5和4的分太低了)
- 对于Qwen7B和14B,你们也是采用的def get_response_chatglm类似的方式,以List[tuple]调用Qwen model的chat方法吗?因为我没法复现出论文中的指标,算出来也比论文中偏高。
- Baichuan2-13B上复现出来和论文中是一致的。最后非常谢谢你们的方法和工作,算是目前比较靠谱的eval了。
你好,我想请教一下让GPT评估是怎么评的?有prompt可以参考一下吗?
可以参考这篇论文最后的prompt,ROLELLM: BENCHMARKING, ELICITING, AND ENHANCING ROLE-PLAYING ABILITIES OF LARGE LANGUAGE MODELS。将其中的给回复排序改成给单一回复打分,并给出每个对应分数的详细标准即可。
您好,首先非常感谢您能关注我们的工作。下面是针对您的几个问题的回答:
- 我们用的GPT-3.5版本是gpt-3.5-turbo-1106,这个在论文里也写了
- 调用GPT3.5的方式是类似get_response.py的,通过构造角色扮演的history来完成的
- 论文里所有实验结果都是评估了全部4000多条样本
最后,我们认为GPT-3.5指标表现很差是合理的,因为观察到很多拒绝角色扮演的现象,比如它会说”我只是一个人工智能模型...“,如果您有别的疑惑欢迎随时沟通~
文中最后给的A Evaluation Result by GPT-4,可以给出具体的评估方式和prompt么?1~5分每个分数的详细标准是什么?
我这边基于test_data.jsonl的数据采用目前的GPT3.5-turbo测出来的指标比论文中提到的GPT3.5的结果高不少,所以想请问一下如下两个问题: