carbonz0 / alpaca-chinese-dataset

alpaca中文指令微调数据集
388 stars 24 forks source link

我们发布了更完整、不是机器翻译的中文数据 #3

Open Guanaco-Model opened 1 year ago

Guanaco-Model commented 1 year ago

https://guanaco-model.github.io/ https://huggingface.co/datasets/JosephusCheung/GuanacoDataset

acadaiaca commented 1 year ago

期待你们的工作!希望能早日开源权重,体验到模型的惊艳效果!

carbonz0 commented 1 year ago

https://guanaco-model.github.io/ https://huggingface.co/datasets/JosephusCheung/GuanacoDataset

不错👍,看是不是能合作一下,做个合并,我也在生成这样的数据

Guanaco-Model commented 1 year ago

机器翻译的数据,对小模型可能是一种数据污染。 在数据生成上面,GuanacoDataset迄今已花费$5K在OpenAI。 对中文数据方面,我们公开发布了Alpaca175任务中文版本的185,702条项目,重复度0.7以内;含有中文的对话任务48,967条。 所有中文包含了简体中文、香港繁体和台湾正体,均是本地化的 seed tasks 独立生成,并且未使用蒸馏过的turbo模型。 如果您有新的生成结构,欢迎向社区分享。

cxj01 commented 1 year ago

@Guanaco-Model 很感谢您发布的数据和模型。

我在使用https://huggingface.co/nyanko7/alpaca-multilang/tree/main时,生成的句子会重复, image

我使用的config如下: generation_config = GenerationConfig( temperature=0.1, top_p=0.75, num_beams=4, **kwargs, ) generation_output = model.generate( input_ids=input_ids, generation_config=generation_config, return_dict_in_generate=True, output_scores=True, max_new_tokens=256, )

wac81 commented 1 year ago

机器翻译的数据,对小模型可能是一种数据污染。 在数据生成上面,GuanacoDataset迄今已花费$5K在OpenAI。 对中文数据方面,我们公开发布了Alpaca175任务中文版本的185,702条项目,重复度0.7以内;含有中文的对话任务48,967条。 所有中文包含了简体中文、香港繁体和台湾正体,均是本地化的 seed tasks 独立生成,并且未使用蒸馏过的turbo模型。 如果您有新的生成结构,欢迎向社区分享。

================== 这份数据我看过了,问题在于没有去除包含图片和文件相关的内容,这部分会扰乱模型

Syno8 commented 1 year ago

@Guanaco-Model @wac81 请问你们有对中文数据上的效果进行评测吗?方便展示一下结果吗?

Guanaco-Model commented 1 year ago

您可以参考协作者的一份实现:https://colab.research.google.com/drive/1nn6TCAKyFrgDEgA6X3o3YbxfbMm8Skp4?usp=sharing 特别地,针对Chat模式,如果效果不佳,请适当增大temperature,出现重复增加repetition_penalty。 最终的作品仍在筹划中,目前正在对超长输入(比如pdf文档)的非文段匹配方式的阅读总结和QA进行研究。

Guanaco-Model commented 1 year ago

您似乎没有设定repetition_penalty

Nipi64310 commented 1 year ago

Hi @Guanaco-Model , 请问

含有中文的对话任务48,967条

这个对话任务是什么样子的,数据是怎么构造的