SUSTech-IDEA / SUS-Chat

SUS-Chat: Instruction tuning done right
Other
47 stars 0 forks source link

多轮数据是怎么构建的?会带上前一轮的终止符吗? #8

Closed haohuisss closed 10 months ago

haohuisss commented 10 months ago

[{'role': 'user', 'content': '你好'}, {'role': 'assistant', 'content': ' 你好!有什么我可以帮助你的吗?<|endoftext|>'}, {'role': 'user', 'content': 'What is the capital of China?'}]

fecet commented 10 months ago

参考readme的函数即可,不需要特殊处理

haohuisss commented 10 months ago

上面的第一轮回复,是我用readme的代码跑出来的,最后也是生成了<|endoftext|>,并加入到了message中。同时在多轮对话中也没有使用起始符<|startoftext|>。 请问训练的过程中也是没有加入起始符的吗?

fecet commented 10 months ago

训练时也没有添加