Facico / Chinese-Vicuna

Chinese-Vicuna: A Chinese Instruction-following LLaMA-based Model —— 一个中文低资源的llama+lora方案,结构参考alpaca
https://github.com/Facico/Chinese-Vicuna
Apache License 2.0
4.14k stars 421 forks source link

guanaco_belle_merge_v1.0 直接merge可能重复的情况? #137

Closed wilson9x1 closed 1 year ago

wilson9x1 commented 1 year ago

https://huggingface.co/datasets/Chinese-Vicuna/guanaco_belle_merge_v1.0

单纯合并可能有一些问题? 比如"你是谁?" 这个问题 就有好几处。。其他问题 可能也会被冲突

{ "instruction": "你是谁?", "input": "", "output": "我叫Belle,我的名字代表着Bloom Enhanced Large Language model Engine,也就是说我是基于Bloom训练的大语言模型。\n" }, { "instruction": "你是谁?", "input": "", "output": "我是Guanaco模型,一个基于7B LLaMA模型进行微调的人工智能语言模型。我的目标是帮助用户回答问题、提供有关各种主题的信息以及执行多种任务。" },

{ "instruction": "回答问题:你是谁?", "input": "", "output": "我是一个基于AI的语言模型,名为Guanaco。我是根据7B LLaMA模型进行微调的,并使用Self-Instruct技术生成简体中文、香港繁体中文和台湾正体中文的指令跟随数据。我的目标是为用户提供有用的信息和解答问题。" },

Facico commented 1 year ago

这种问题可以进行后处理。当然也可以自己处理一下这些数据,因为不知道合不合规所以我们放上来的数据是没有处理的