THUDM / ChatGLM-6B

ChatGLM-6B: An Open Bilingual Dialogue Language Model | 开源双语对话语言模型
Apache License 2.0
40.77k stars 5.23k forks source link

菜鸟选手请教:如何构建自己的数据集 #364

Closed SizhaoXu closed 1 year ago

SizhaoXu commented 1 year ago

真的要一条条数据手动生成吗QAQ?还是说有没有一个方法,根据已有的文本数据自动生成一些问答数据集。看官方的广告生成数据集,差不多1.5w条数据,要是自己手动弄,工作量也忒大了吧

njsgdd10086 commented 1 year ago

微调的数据集肯定是质量越高越好的

TheHonestBob commented 1 year ago

你这个问题跟先有鸡还是先有蛋是一个道理

SizhaoXu commented 1 year ago

你这个问题跟先有鸡还是先有蛋是一个道理

我知道你的意思,主要是想着要是已经有了(只不过我不知道)好的自动生成的方法,就可以节省大量人工成本了orz

TheHonestBob commented 1 year ago

要想要好的效果模型数据缺一不可,有时候数据比模型更重要,效果和效率之间做一个平衡,chatglm和chatgpt效果不都还可以吗,你直接把文本输入进去,让它们生成一些对话看看噻,比如请根据以下内容生成一段两人的对话

976311200 commented 1 year ago

提供的微调数据中 input中的一写#符号代表是什么意思? 这样微调后的数据是否也要这样输入

dragononly commented 1 year ago

同问,如果我的数据格式是 {"吃饭了吗","你好我是机器人不需要吃饭" } 这种作为训练可以吗。 还有dev遵循test data标准吗还是有什么要求。

tutuxxx commented 1 year ago

同问,求大佬赐教

PopRangR commented 1 year ago

请问这个项目中怎样训练自己的数据集

Saintat1 commented 1 year ago

可以试试 doc2query/msmarco-chinese-mt5-base-v1, 根据doc生成问题

zhangch9 commented 1 year ago

可参考#330