我们发布了更完整、不是机器翻译的中文数据

hikariming / chat-dataset-baseline

人工精调的中文对话数据集和一段chatglm的微调代码

1.14k stars 95 forks source link

Open Guanaco-Model opened 1 year ago

Guanaco-Model commented 1 year ago

hikariming commented 1 year ago

感谢感谢，因为我们最近在研究其他的一些数据啦，除了alpaca还想做一些其他的数据集

Syno8 commented 1 year ago

@hikariming 请问有中文效果评测吗？

hikariming commented 1 year ago

中文效果评测？

Syno8 commented 1 year ago

有进行训练吗？

hikariming commented 1 year ago

还没，训练的可以zai1github搜[alpaca_chinese,商汤和华科弄了个

Syno8 commented 1 year ago

@hikariming 谢谢，你们这个是什么机构？感觉你们组织很强大，翻译的更新频率挺高的

hikariming commented 1 year ago

我们在两个学校的实验室做相关研究，> @hikariming 谢谢，你们这个是什么机构？感觉你们组织很强大，翻译的更新频率挺高的

hikariming commented 1 year ago

其实目的很简单啦，就是希望能够调动社区积极性，能够从社区得到一个从零开始训练的中文聊天模型，对我们来说就是完成了一个有意义的工作> @hikariming 谢谢，你们这个是什么机构？感觉你们组织很强大，翻译的更新频率挺高的

Syno8 commented 1 year ago

@hikariming @Guanaco-Model 那你们是否会考虑标注和开放相应的reward 数据呢？还是你们仅考虑进行sft？