菜鸟选手请教：如何构建自己的数据集

THUDM / ChatGLM-6B

ChatGLM-6B: An Open Bilingual Dialogue Language Model | 开源双语对话语言模型

Apache License 2.0

40.77k stars 5.23k forks source link

Closed SizhaoXu closed 1 year ago

SizhaoXu commented 1 year ago

真的要一条条数据手动生成吗QAQ？还是说有没有一个方法，根据已有的文本数据自动生成一些问答数据集。看官方的广告生成数据集，差不多1.5w条数据，要是自己手动弄，工作量也忒大了吧

njsgdd10086 commented 1 year ago

微调的数据集肯定是质量越高越好的

TheHonestBob commented 1 year ago

你这个问题跟先有鸡还是先有蛋是一个道理

SizhaoXu commented 1 year ago

你这个问题跟先有鸡还是先有蛋是一个道理

我知道你的意思，主要是想着要是已经有了（只不过我不知道）好的自动生成的方法，就可以节省大量人工成本了orz

TheHonestBob commented 1 year ago

要想要好的效果模型数据缺一不可，有时候数据比模型更重要，效果和效率之间做一个平衡，chatglm和chatgpt效果不都还可以吗，你直接把文本输入进去，让它们生成一些对话看看噻，比如请根据以下内容生成一段两人的对话

976311200 commented 1 year ago

提供的微调数据中 input中的一写#符号代表是什么意思？这样微调后的数据是否也要这样输入

dragononly commented 1 year ago

同问，如果我的数据格式是 {"吃饭了吗","你好我是机器人不需要吃饭" } 这种作为训练可以吗。还有dev遵循test data标准吗还是有什么要求。

tutuxxx commented 1 year ago

同问，求大佬赐教

PopRangR commented 1 year ago

请问这个项目中怎样训练自己的数据集

Saintat1 commented 1 year ago

可以试试 doc2query/msmarco-chinese-mt5-base-v1，根据doc生成问题

zhangch9 commented 1 year ago

可参考#330