我们发布了更完整、不是机器翻译的中文数据

carbonz0 / alpaca-chinese-dataset

alpaca中文指令微调数据集

388 stars 24 forks source link

我们发布了更完整、不是机器翻译的中文数据 #3

Open Guanaco-Model opened 1 year ago

Guanaco-Model commented 1 year ago

https://guanaco-model.github.io/ https://huggingface.co/datasets/JosephusCheung/GuanacoDataset

acadaiaca commented 1 year ago

期待你们的工作！希望能早日开源权重，体验到模型的惊艳效果！

carbonz0 commented 1 year ago

https://guanaco-model.github.io/ https://huggingface.co/datasets/JosephusCheung/GuanacoDataset

不错👍，看是不是能合作一下，做个合并，我也在生成这样的数据

Guanaco-Model commented 1 year ago

机器翻译的数据，对小模型可能是一种数据污染。在数据生成上面，GuanacoDataset迄今已花费$5K在OpenAI。对中文数据方面，我们公开发布了Alpaca175任务中文版本的185,702条项目，重复度0.7以内；含有中文的对话任务48,967条。所有中文包含了简体中文、香港繁体和台湾正体，均是本地化的 seed tasks 独立生成，并且未使用蒸馏过的turbo模型。如果您有新的生成结构，欢迎向社区分享。

cxj01 commented 1 year ago

@Guanaco-Model 很感谢您发布的数据和模型。

我在使用https://huggingface.co/nyanko7/alpaca-multilang/tree/main时，生成的句子会重复，

我使用的config如下： generation_config = GenerationConfig( temperature=0.1, top_p=0.75, num_beams=4, **kwargs, ) generation_output = model.generate( input_ids=input_ids, generation_config=generation_config, return_dict_in_generate=True, output_scores=True, max_new_tokens=256, )

wac81 commented 1 year ago

机器翻译的数据，对小模型可能是一种数据污染。在数据生成上面，GuanacoDataset迄今已花费$5K在OpenAI。对中文数据方面，我们公开发布了Alpaca175任务中文版本的185,702条项目，重复度0.7以内；含有中文的对话任务48,967条。所有中文包含了简体中文、香港繁体和台湾正体，均是本地化的 seed tasks 独立生成，并且未使用蒸馏过的turbo模型。如果您有新的生成结构，欢迎向社区分享。

================== 这份数据我看过了，问题在于没有去除包含图片和文件相关的内容，这部分会扰乱模型

Syno8 commented 1 year ago

@Guanaco-Model @wac81 请问你们有对中文数据上的效果进行评测吗？方便展示一下结果吗？

Guanaco-Model commented 1 year ago

您可以参考协作者的一份实现：https://colab.research.google.com/drive/1nn6TCAKyFrgDEgA6X3o3YbxfbMm8Skp4?usp=sharing 特别地，针对Chat模式，如果效果不佳，请适当增大temperature，出现重复增加repetition_penalty。最终的作品仍在筹划中，目前正在对超长输入（比如pdf文档）的非文段匹配方式的阅读总结和QA进行研究。

Guanaco-Model commented 1 year ago

您似乎没有设定repetition_penalty

Nipi64310 commented 1 year ago

Hi @Guanaco-Model ，请问

含有中文的对话任务48,967条

这个对话任务是什么样子的，数据是怎么构造的