Facico / Chinese-Vicuna

Chinese-Vicuna: A Chinese Instruction-following LLaMA-based Model —— 一个中文低资源的llama+lora方案,结构参考alpaca
https://github.com/Facico/Chinese-Vicuna
Apache License 2.0
4.14k stars 422 forks source link

instruct_chat_50k.json 数据问题 #194

Open alphanlp opened 1 year ago

alphanlp commented 1 year ago

instruct_chat_50k.json 部分数据中包含“继续”,怎么理解和使用?

LZY-the-boys commented 1 year ago

这是因为多轮对话长度太长,我们进行了截断处理。这种可以自己额外写代码去除。

lucasjinreal commented 1 year ago

我也比较好奇,在数据中,input 中的继续,在回答中却没有对应的,这种如何用来训练啊

Facico commented 1 year ago

数据是直接截断的所以有些数据会有点问题,可能有点影响。不过测试的时候说“继续”还是有用的,可以将上轮的询问信息扩张下来