Haruhi-Zero数据组织问题

qinb commented 9 months ago

@LC1332 感谢作者项目的无私分享，我在学习您的数据生成时发现一些疑惑，想请教一下：具体参考的数据 https://huggingface.co/datasets/silk-road/Haruhi-Zero/tree/main

1、对于RoleLLM-sample.jsonl，Haruhi52_sample.jsonl等，我大致总结了一下数据组织方式，问题 1： 不知是否正确？ a. 通过embedding相似度获取context，并以\n###\n分割； b. 数据组织成from,value这种shareGPT格式； c. 每个对话使用「和」括住；

疑惑： 我跟进了您最新上传的novel_50_xx-sample.jsonl以及tranlsated_and_split_PIPPA_sample.jsonl，\ 发现似乎并不按照上述方式组织，【似乎没有了相似度获取的context，以及每个对话使用「和」括住；】\ 问题2： 类似多种数据组织方式对于训练的影响大吗？

LC1332 commented 9 months ago

因为Haruhi zero的目标希望去兼容过往的带rag 以及现在普遍生态的zero shot数据足够大的模型肯定是希望各种引号都去适配而去适应不同格式的对话
对于较小的模型是会造成问题的，这个如果进一步缩小模型很容易观测到。对于小模型最好格式是统一的或者在prompt前面有一定的提示（比如当前对话使用xxx格式）

qinb commented 9 months ago

感谢回复！

我使用LLAMA-Factory微调Haruhi-Zero的xx-sample.jsonl数据，出现了不满足shareGPT格式的错误。 因为shareGPT要求conversations为偶数行，而且数据要求u/a/u/a这种顺序。但xx-sample.jsonl数据中，是u/u/a等一些不满足要求的数据。

请问：上面情况你是怎么处理的呢？ 【我暂时使用的是相邻uu或者相邻aa合并的】

LC1332 commented 9 months ago

啊那个我修正掉了就是用你说的并且a开头的话前面加一句sys然后把sys置0 你要更多数据的话可以去知乎加一下我微信。。。不过现在数据已经非常多了差不多有40w 准备最终做到100w

qinb commented 9 months ago

感谢，我已通过知乎发了我的微信号

LC1332 / Chat-Haruhi-Suzumiya

Haruhi-Zero数据组织问题 #69