Open AceCHQ opened 1 year ago
WizardLM有1万是用没改进的prompt翻译的,剩余5万多是好的。我打算之后用embedding筛除一下质量不好的。回答是爬取3.5的,4有点小贵~~
谢谢回复,请问embedding如何筛除?有什么合适的模型吗?
Good Question. 我们最近训了一个 https://huggingface.co/silk-road/luotuo-bert-en 我还剩一个实验是用这个 去对 luotuo-bert,把这些翻译数据集出现指令注入现象的错误翻译给修正一遍,你有兴趣的话 去我知乎主页https://www.zhihu.com/people/cheng-li-47 留个微信吧,我找相关的同学来推进一下QAQ
Hello,感谢您的工作,请问WizardLM的进化指令翻译质量如何,有经过过滤吗?另外回答是爬取的GPT4还是GPT3.5吗?谢谢回复~