Closed lucasjinreal closed 1 year ago
我们的数据全都在hugging face上是有的 包括完整的54K https://huggingface.co/datasets/silk-road/ChatHaruhi-54K-Role-Playing-Dialogue 数据集 或者用来训练的数据集 https://huggingface.co/datasets/silk-road/Chat-Haruhi-Fusion-A_B
我之后会启动一个迁移,把过往的项目遗留代码移动到一个遗产项目去。
@LC1332 感谢,但是依旧有两个问题:
另外实际用来训练对话模型的,用户输入应该要去掉 」?
是否可以将原始数据看作是多轮?
另外实际训练的时候,角色的名字已经分隔符是否有加入训练呢
啊对, 如果带上prompt的话就是另一个链接那个fusion的 是完整语言模型接受的prompt和target
是否可以将数据整理一下传hf?一来好管理,二来可以让更多人单独贡献数据,这git里面动一块西一块的着实比较难阅览。