请问WizardLM的数据是爬取的GPT4吗？

LC1332 / Luotuo-Chinese-LLM

骆驼(Luotuo): Open Sourced Chinese Language Models. Developed by 陈启源 @ 华中师范大学 & 李鲁鲁 @ 商汤科技 & 冷子昂 @ 商汤科技

Apache License 2.0

3.64k stars 247 forks source link

请问WizardLM的数据是爬取的GPT4吗？ #60

Open AceCHQ opened 1 year ago

AceCHQ commented 1 year ago

Hello，感谢您的工作，请问WizardLM的进化指令翻译质量如何，有经过过滤吗？另外回答是爬取的GPT4还是GPT3.5吗？谢谢回复～

LC1332 commented 1 year ago

WizardLM有1万是用没改进的prompt翻译的，剩余5万多是好的。我打算之后用embedding筛除一下质量不好的。回答是爬取3.5的，4有点小贵～～

AceCHQ commented 1 year ago

谢谢回复，请问embedding如何筛除？有什么合适的模型吗？

LC1332 commented 1 year ago

Good Question. 我们最近训了一个 https://huggingface.co/silk-road/luotuo-bert-en 我还剩一个实验是用这个去对 luotuo-bert，把这些翻译数据集出现指令注入现象的错误翻译给修正一遍，你有兴趣的话去我知乎主页https://www.zhihu.com/people/cheng-li-47 留个微信吧，我找相关的同学来推进一下QAQ