hikariming / chat-dataset-baseline

人工精调的中文对话数据集和一段chatglm的微调代码
1.14k stars 95 forks source link

感谢开源 #10

Open ZeyuTeng96 opened 1 year ago

ZeyuTeng96 commented 1 year ago

看了readme,如果官方数据集能实现翻译 + 人工审核,那数据集的质量一定很高,再加上chatglm、文心一言、chatgpt的数据,想想都起飞,感谢辛苦开源,非常期待,大佬们加油

ZeyuTeng96 commented 1 year ago

您好,能否尝试提供一些代码生成的指令数据,比如写python、sql、java这些 @hikariming

hikariming commented 1 year ago

今天我就在考虑这个事,但是因为代码的缩进空格那些有比较严格的要求,人工做数据集难度比较大,因此后面打算做一点自动化的数据收集策略之后再做代码相关数据集

ZeyuTeng96 commented 1 year ago

今天我就在考虑这个事,但是因为代码的缩进空格那些有比较严格的要求,人工做数据集难度比较大,因此后面打算做一点自动化的数据收集策略之后再做代码相关数据集

辛苦您了,很想尝试、测试、使用一下这种指令微调的模型对代码生成的能力

ZeyuTeng96 commented 1 year ago

对啦,我看了您的Merge.py脚本,发现一个问题,就是所有的指令数据,都会忽略input的输入,感觉这种convert的方法貌似不太合理,不知道您有没有意识到。@hikariming