OpenMOSS / MOSS

An open-source tool-augmented conversational language model from Fudan University
https://txsun1997.github.io/blogs/moss.html
Apache License 2.0
11.89k stars 1.15k forks source link

多轮对话数据构造的时候是否会有上下文不一致的问题 #375

Open muziyongshixin opened 6 months ago

muziyongshixin commented 6 months ago

您好 readme中提到: moss-moon-003-sft所使用的多轮对话数据,基于MOSS-002内测阶段采集的约10万用户输入数据和gpt-3.5-turbo构造而成

请问是将user prompt输入到chatgpt中一轮一轮来增量构造的吗? 那么是否会存在用户在第二轮提的内容在gpt第一轮中没有出现过,比如下面的示例:

user: 给我写一个快排
gpt: code.....
user: 你的代码里面的quicksort函数是什么意思
gpt:对不起我之前的回答里面并没有提到quicksort这个函数

这种情况是不是上下文的语义不太统一,开源的数据里面考虑过这种问题吗?