hikariming / chat-dataset-baseline

人工精调的中文对话数据集和一段chatglm的微调代码
1.14k stars 95 forks source link

我们发布了更完整、不是机器翻译的中文数据 #2

Open Guanaco-Model opened 1 year ago

Guanaco-Model commented 1 year ago

https://guanaco-model.github.io/ https://huggingface.co/datasets/JosephusCheung/GuanacoDataset

hikariming commented 1 year ago

感谢感谢,因为我们最近在研究其他的一些数据啦,除了alpaca还想做一些其他的数据集

Syno8 commented 1 year ago

@hikariming 请问有中文效果评测吗?

hikariming commented 1 year ago

中文效果评测?

Syno8 commented 1 year ago

有进行训练吗?

hikariming commented 1 year ago

还没,训练的可以zai1github搜[alpaca_chinese,商汤和华科弄了个

Syno8 commented 1 year ago

@hikariming 谢谢,你们这个是什么机构?感觉你们组织很强大,翻译的更新频率挺高的

hikariming commented 1 year ago

我们在两个学校的实验室做相关研究,> @hikariming 谢谢,你们这个是什么机构?感觉你们组织很强大,翻译的更新频率挺高的

hikariming commented 1 year ago

其实目的很简单啦,就是希望能够调动社区积极性,能够从社区得到一个从零开始训练的中文聊天模型,对我们来说就是完成了一个有意义的工作> @hikariming 谢谢,你们这个是什么机构?感觉你们组织很强大,翻译的更新频率挺高的

Syno8 commented 1 year ago

@hikariming @Guanaco-Model 那你们是否会考虑标注和开放相应的reward 数据呢?还是你们仅考虑进行sft?