LC1332 / Luotuo-Chinese-LLM

骆驼(Luotuo): Open Sourced Chinese Language Models. Developed by 陈启源 @ 华中师范大学 & 李鲁鲁 @ 商汤科技 & 冷子昂 @ 商汤科技
Apache License 2.0
3.64k stars 247 forks source link

请问WizardLM的数据是爬取的GPT4吗? #60

Open AceCHQ opened 1 year ago

AceCHQ commented 1 year ago

Hello,感谢您的工作,请问WizardLM的进化指令翻译质量如何,有经过过滤吗?另外回答是爬取的GPT4还是GPT3.5吗?谢谢回复~

LC1332 commented 1 year ago

WizardLM有1万是用没改进的prompt翻译的,剩余5万多是好的。我打算之后用embedding筛除一下质量不好的。回答是爬取3.5的,4有点小贵~~

AceCHQ commented 1 year ago

谢谢回复,请问embedding如何筛除?有什么合适的模型吗?

LC1332 commented 1 year ago

Good Question. 我们最近训了一个 https://huggingface.co/silk-road/luotuo-bert-en 我还剩一个实验是用这个 去对 luotuo-bert,把这些翻译数据集出现指令注入现象的错误翻译给修正一遍,你有兴趣的话 去我知乎主页https://www.zhihu.com/people/cheng-li-47 留个微信吧,我找相关的同学来推进一下QAQ