Closed SizhaoXu closed 1 year ago
微调的数据集肯定是质量越高越好的
你这个问题跟先有鸡还是先有蛋是一个道理
你这个问题跟先有鸡还是先有蛋是一个道理
我知道你的意思,主要是想着要是已经有了(只不过我不知道)好的自动生成的方法,就可以节省大量人工成本了orz
要想要好的效果模型数据缺一不可,有时候数据比模型更重要,效果和效率之间做一个平衡,chatglm和chatgpt效果不都还可以吗,你直接把文本输入进去,让它们生成一些对话看看噻,比如请根据以下内容生成一段两人的对话
提供的微调数据中 input中的一写#符号代表是什么意思? 这样微调后的数据是否也要这样输入
同问,如果我的数据格式是 {"吃饭了吗","你好我是机器人不需要吃饭" } 这种作为训练可以吗。 还有dev遵循test data标准吗还是有什么要求。
同问,求大佬赐教
请问这个项目中怎样训练自己的数据集
可以试试 doc2query/msmarco-chinese-mt5-base-v1, 根据doc生成问题
真的要一条条数据手动生成吗QAQ?还是说有没有一个方法,根据已有的文本数据自动生成一些问答数据集。看官方的广告生成数据集,差不多1.5w条数据,要是自己手动弄,工作量也忒大了吧