LC1332 / Chat-Haruhi-Suzumiya

Chat凉宫春日, An open sourced Role-Playing chatbot Cheng Li, Ziang Leng, and others.
Apache License 2.0
1.85k stars 164 forks source link

可以将数据传huggingface吗? #27

Closed lucasjinreal closed 1 year ago

lucasjinreal commented 1 year ago

是否可以将数据整理一下传hf?一来好管理,二来可以让更多人单独贡献数据,这git里面动一块西一块的着实比较难阅览。

LC1332 commented 1 year ago

我们的数据全都在hugging face上是有的 包括完整的54K https://huggingface.co/datasets/silk-road/ChatHaruhi-54K-Role-Playing-Dialogue 数据集 或者用来训练的数据集 https://huggingface.co/datasets/silk-road/Chat-Haruhi-Fusion-A_B

我之后会启动一个迁移,把过往的项目遗留代码移动到一个遗产项目去。

lucasjinreal commented 1 year ago

@LC1332 感谢,但是依旧有两个问题:

  1. 完整的54k貌似没有角色的预设词?

image

另外实际用来训练对话模型的,用户输入应该要去掉 」?

  1. 而包含了上下文和预设的训练数据,貌似又没有 input 只有target

是否可以将原始数据看作是多轮?

另外实际训练的时候,角色的名字已经分隔符是否有加入训练呢

LC1332 commented 1 year ago

啊对, 如果带上prompt的话就是另一个链接那个fusion的 是完整语言模型接受的prompt和target